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全 书 分 为 3 篇 : 第 1 篇 (理论 部 分 ) 对 云 计 算 、Hadoop 及 Linux 操作 系 
统 进 行 了 简单 介绍 ; 第 2 篇 (基础 实践 部 分 ) 主要 详细 介绍 了 CentOS 系统 
的 安装 和 集群 的 搭建 、Hadoop 集群 的 常用 命令 及 管理 应 用 等 ; 第 3 篇 (项 
目 实 训 部 分 ) 主要 以 实际 项 目 开 发 为 例 ， 从 易 到 难 ， 对 源 程序 进行 了 详细 
解释 。 

本 书 以 详细 的 实践 操作 介绍 为 特色 ， 可 作为 电子 、 通 信 、 上 自动 化 、 计 
算 机 等 电 类 专业 Hadoop 云 计 算 教 学 系统 课程 实验 教材 ， 也 可 供 Hadoop 系 
统 相关 工程 技术 人 员 参 考 ，。 
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本 书 是 基于 北京 斑 步 至 伟 科 技 有 限 公 司 Hadoop 云 计算 一 体 机 [搭配 PC( 个 人 计算 机 ) J ， 
由 北京 林业 大 学 工学 院 与 该 公司 共 建 的 Bamboo 云 计算 与 物 联网 实验 室 共同 编写 而 成 ， 主 要 
介绍 如 何 搭建 Hadoop 平台 并 在 其 上 面 开 发 并 部 署 云 应 用 。 本 书 主要 由 李宁 、 王 东 亮 编著 ， 
北京 斑 步 至 伟 科 技 有 限 公 司 的 工程 师 对 本 书 中 的 软件 实例 开发 和 验证 进行 了 大 量 、 细 致 的 工 
作 ， 北 京 林 业 大 学 工学 院 杨 导 吴 老师 、 即 将 留 校 参加 工作 的 研究 生 吴 健 等 人 参与 了 一 体 机 的 
开发 与 软件 测试 ， 实 验 室 全 体 成 员 的 共同 努力 确保 了 本 书 的 质量 。 

近 几 年 来 云 计算 经 过 各 大 厂商 的 推广 ， 很 多 读者 对 于 Hadoop 和 云 计算 已 经 有 了 了 一定 的 
了 解 ， 目 前 有 相当 一 批 人 在 从 事 这 方面 的 工作 ， 一 些 高 校 也 开始 有 这 方面 的 诛 程 和 讲座 。 

本 书 主要 介绍 在 “ 裸 机 ”的 状态 下 ， 如 何 搭建 Hadoop 平台 。 通 过 由 浅 入 深 的 介绍 ， 引 
领 学 生 步 人 Hadoop 以 及 云 计算 的 大 门 。 全 书 从 云 计算 、Hadoop 以 及 Linux 的 理论 知识 开始 
介绍 ， 到 集群 的 搭建 、 项 目的 设计 和 应 用 ， 贯 穿 了 Hadoop 学 习 的 整个 过 程 。 通 过 学 习 本 书 ， 
读者 基本 上 可 以 熟悉 市 场 上 各 种 云 平 台 开 发 过 程 和 设计 思想 。 

本 书 各 章 世 内 容 主 要 安排 如 下 : 

第 1 篇 理论 部 分 

第 1 章 : 云 计 算 概 念 、 发 展现 状 和 实现 机 制 ， 目 前 各 大 厂商 的 云 计 算 概 述 ; 

2n DEM Hadoop 人 和合 介 、 架 构 和 核心 搁 术 HDFS 以 及 MapReduce; 

第 3 3. Linux 操作 系统 的 介绍 和 命令 的 使 用 。 

第 2 篇 基础 实践 部 分 

第 4 草 : CentOS 系统 的 安装 和 集群 的 搭建 过 程 ; 

第 5 di. 熟悉 Hadoop 集群 的 第 用 命令 并 学 会 使 用 Web 方式 浏览 集群 ; 

第 6 章 : Hadoop 内 部 的 管理 应 用 、 系 统 体检 权限 管理 ; 

第 7 GE. 基础 开发 实验 : 包含 HDFS 上 传 文件 、 浏 览 文件 和 目录 、 打 开 、 下 载 和 删除 文件 ; 

第 8 草 : 局 级 开发 实验 : 包含 数据 去 重 、 排 序 、 平 均 成 绩 和 单 表 关联 ， 都 是 基于 Ma- 
pReduce 的 。 

第 3 篇 项目 实 训 部 分 

BOE. 个 人 存储 私有 云 ， 主 要 实现 云 文件 的 存储 、 浏 览 和 删除 ; 

第 103€. 气象 数据 分 析 云 ， 主 要 实现 对 气象 数据 的 分 析 和 计算 给 出 表格 ; 

第 11 草 : 微 信 人 物 关 系 云 ， 主 要 根据 上 传 分 析 条 件 来 对 人 物 关 系 进行 分 析 ; 

第 12 章 : wR, ESCM TAB ERAS, 并且 提供 查询 的 功能 ; 

第 13 章 : 物 联 网 与 云 计算 ， 主 要 实现 智能 分 配 快 递 的 功能 。 

由 于 作者 水 平 有 限 ， 本 书 难 免 存 在 一 些 错误 和 不 足 ， 欢 迎 大 家 指正 。 
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15: 云 计 算 理论 


1.1 去 计算 的 概念 


云 计算 (Cloud Computing) 首先 是 基于 互联 网 的 ， 并 且 是 对 在 互联 网 上 的 服务 进行 使 用 、 
增加 和 交付 的 ， 这 个 资源 一 般 是 虚拟 化 并 且 动 态 易 扩展 的 。 云 其 实 就 是 对 网 络 以 及 互联 网 资 
源 的 一 种 形象 说 法 。 在 过 去 ,很 多 人 画图 会 使 用 云 来 表示 电信 网 ， 后 来 出 现 了 互联 网 还 有 对 
一 些 底层 的 基础 染 构 的 形象 描述 。 狭 义 云 计 算是 指 一 种 IT 基础 设施 的 交付 和 使 用 模式 ， 指 
通过 互联 网 以 按 需 、 易 扩展 的 方式 获得 所 需 资源 ; 广义 云 计 算 指 服务 的 交付 和 使 用 模式 ， 指 
通过 互联 网 以 按 需 、 吻 扩展 的 方式 获得 所 需 服务 。 这 种 服务 可 以 是 YT 资源 和 应 用 软件 、 
切 和 互联 网 相关 资源 ， 也 可 是 其 他 种 类 的 服务 。 它 意味 看 计算 能 力也 可 作为 一 种 商品 通过 互 
联网 进行 流通 。 

什么 是 云 计 算 ? 云 计 算是 一 种 基于 互联 网 的 超级 计算 模式 ， 在 远程 的 数据 中 心 ， 几 万 台 
甚至 几 千 万 人 台 计 算 机 和 服务 需 连 接 成 一 片 。 因 此 ， 云 计算 甚至 可 以 让 人 体验 每 秒 超过 10 万 
亿 次 的 运算 能 力 ， 如 此 强大 的 运算 能 力 几 乎 无 所 不 能 。 用 户 通过 计算 机 、 便 携 式 计算 机 、 手 
机 每 方式 接 入 数据 中 心 ， 按 各 日 的 需求 进行 存储 和 运算 。 四 其 比较 成 熟 而 实用 的 云 计算 产品 
WF: IBM 公司 的 赣 云 、 亚 马 逊 公司 的 Amazon EC2 、 谷 歌 公 司 的 Google App Engine, 微软 
公司 的 Windows Azure, 


1.2. 云 计 算 发 展现 状 


1. 云 计算 发 展现 状 

云 计 算 作 为 业界 热点 ， 近 年 来 世界 各 国 对 于 它 的 研究 和 应 用 方兴未艾 ， 许 多 政府 部 门 和 
著名 公司 在 人 研发 与 应 用 云 计 算 的 过 程 中 作出 了 大 量 的 工作 和 努力 。 

(1) 云 计算 在 国外 的 发 展 

去 计算 与 网 络 密 不 可 分 。 云 计算 的 原始 含义 是 通过 互联 网 提供 计算 能 力 。 云 计算 的 起 源 
跟 亚马逊 和 谷歌 两 个 公司 有 十 分 密切 的 关系 ， 它 们 最 早 使 用 到 了 “Cloud Computing” 的 表述 
方式 。 目 前 美国 公开 宣布 进入 或 文 持 云 计 算 技术 开发 的 业界 巨头 包括 微软 、 谷 歌 、IBM 、 亚 
tfh | Netsuite, NetApp, Adobe 等 公司 。 

谷歌 公司 是 云 计算 的 提出 者 。2006 年 ， 谷 歌 公司 局 动 了 “Google101” 计 划 ， 引 导 大 学 
生 们 进行 “ 云 ” 系 统 的 编程 开发 。 多 年 的 搜索 引擎 技术 的 积 紫 成 末 使 谷歌 公司 在 云 计 算 技 
术 上 处 于 领先 的 地 位 ,不仅 提 供 在 线 应 用 ， 还 希望 发 挥 目 身 的 数据 库 系 统 优势 ， 成 为 在 线 应 
用 的 统一 平台 。 谷 歌 公司 以 发 表 学 术 论 文 的 形式 公开 了 其 云 计 算 三 大 法 宝 : GFS Map/Re- 
duce 和 BigTable， 并 在 美国 和 我 国 等 国 高 校 开 设 云 计算 编程 诛 程 。 

微软 公司 于 2008 年 10 月 推出 了 Windows Azure 操作 系统 ， 这 个 系统 作为 微软 公司 云 计 
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A 第 1 章 云 计算 理论 A 


算计 划 的 服务 需 端 操作 系统 (Cloud OS) 为 广大 开发 者 提供 服务 。 微 软 公司 拥有 全 世界 数 以 亿 
TTA) Windows 操作 系统 用 户 果 面 和 浏览 需 ，Azure( 蓝 天) 试图 通过 在 互联 网 架构 上 打造 新 的 
云 计算 平台 ， 让 Windows 操作 系统 由 PC( 个 人 计算 机 ) 延 伸 到 “蓝天 ”上 。 

IBM 公司 从 企业 内 部 需求 的 逐渐 上 升 出 发 ， 在 2007 年 11 月 提出 了 “ 蓝 云 ”计划 ， 推 出 
共有 云 和 私有 云 的 概念 。IBM 公司 提出 私有 云 解决 方案 是 为 减少 诸如 数据 、 信 息 安 全 等 共有 
云 现存 的 问题 ， 从 而 抢占 企业 云 计算 市 场 。 依 托 IBM 公司 在 服务 天 领域 的 传统 优势 ，IBM 
公司 成 为 目前 惟一 一 个 提供 从 人 硬件、 软件 到 服务 全 部 目 主 生产 的 公司 。 

2008 年 7 月 ， 雅 虎 、 囊 普 和 英特尔 公司 联合 宣布 将 建立 全 球 性 的 开源 云 计算 研究 测试 
W, PKN Open Cirrus， 疏 励 开 展 云 计算 、 服 务 和 数据 中 心 管理 等 领域 中 各 方面 的 研究 。 

平 果 公司 是 云 计算 领域 的 一 位 积极 参与 者 。 从 近年 来 推出 的 iTunes 服务 ， 到 Mobile Me 
服务 ， 到 收购 在 线 音 乐 服务 商 Lala, 再 到 最 近 在 美国 北 卡 羔 罗 纳 州 投资 10 亿美 元 建立 新 数 
据 中 心 的 计划 ， 无 不 显示 其 进 车 云 计 算 领域 的 巨大 决心 。 

这 些 国际 知名 大 公司 在 全 世界 建造 了 庞大 的 云 计算 中 心 。 壁 如 ; 谷歌 公司 的 搜索 引擎 分 
布 于 200 多 个 站 点 、 超 过 100 万 全 服 务 融 文 返 ， 而 且 设施 效 量 正在 迅猛 增长 。 

(2) 云 计算 在 国内 的 发 展 

日 前 我 国 云 计算 的 讨论 多 数 集 中 在 早期 云 计算 的 概念 、 拉 术 和 模式 上 。 早 期 的 云 计算 是 
一 种 动态 的 、 多 扩展 的 、 通 过 互联 网 提供 虚拟 化 全 (信息 技术 ) 资 源 和 应 用 的 一 种 计算 模式 。 
用 户 不 需要 了 解 云 技术 内 部 的 细节 ， 也 不 必 具 有 云 内 部 的 专业 知识 ， 更 不 需要 和 直接 参与 、 投 
和 入、 建设、 维护 和 控制 就 能 直接 按 需 使 用 并 按 用 量 付费 。 

2008 年 ，IBM 公司 在 无 锡 建立 了 我 国 第 一 个 云 计算 中 心 ， 在 北京 IBM 中 国 创新 中 心 
建立 了 第 二 个 云 计算 中 心 一 一 IBM 大 中 华 区 云 计算 中 心 。2009 年 初 ， 在 南京 建立 了 国内 
首 个 “电子 商务 云 计算 中 心 ” 。 世 纪 互 联 推出 “CloudEx” 产 品 线 ， 包 括 完 整 的 互联 网 主 
机 服务 “CloudEx Computing Service”、 基 于 在 线 存储 虚拟 化 的 “CloudEx Storage Service” 
等 云 计算 服务 。 

随 着 云 计算 的 升温 ， 国 内 的 电信 运营 商 也 痢 积 极 投入 到 云 计算 的 研究 中 ， 以 期 通过 云 计 
算 技 术 促进 网 络 结构 的 优化 和 整合 ， 寻 找到 新 的 屈 利 机 会 和 利润 增长 点 ， 以 实现 回信 息 服 务 
企业 的 转型 。 中 国 移动 公司 推出 了 “大 云 ”(Big Cloud) 云 计算 基础 服务 平台 ， 中 国电 信 公 
司 推出 了 “e 云 ” 云 计 算 平 台 ， 中 国联 通 公 司 则 推出 了 “互联 云 ” 和 平台。 

我 国企 业 创造 了 了 “ 云 安全 ”概念 ， 通 过 网 状 的 大 量 客户 端 对 网 络 中 软件 行为 的 异 稼 监 
测 ， 获 取 互 联网 中 木马 、 亚 意 程 序 的 最 新 信息 ， 在 服务 从 端 进行 目 动 分 析 和 处 理 ， 再 把 解决 
方案 分 发 到 客户 问 。 珊 星 、 趋 势 等 企业 都 推出 了 云 安全 解决 方案 。 

随 看 云 计 算 的 发 展 ， 互 联网 的 功能 越 来 越 强 大 ， 用 户 可 以 通过 云 计算 在 互联 网 上 处 理 庞 
大 的 数据 和 获取 所 需 的 信息 。 从 云 计 算 的 发 展现 状 来 看 ， 未 来 云 计 算 的 发 展会 加 构建 大 规模 
的 能 够 与 应 用 程序 密切 结合 的 底层 基础 设施 的 方 回 发展 。 不 断 创 建新 的 云 计算 应 用 程序 ， 为 
用 户 提 供 更 多 、 更 完善 的 互联 网 服务 也 可 作为 云 计 算 的 一 个 发 展 方向 。 

2. 云 计算 实现 机 制 

由 于 云 计 算 分 为 IaaS( 基础 设施 即 服 务 )、PaaS( 平 台 即 服务 ) 和 SaaS( 软件 即 服 务 ) 三 种 
类 型 ， 不 同 的 广 家 又 提供 了 不 同 的 解决 方案 ， 目 前 还 没有 一 个 统一 的 技术 体系 结构 ， 对 读者 
了 解 云 计算 的 原理 构成 了 障碍 。 为 此 ， 本 书 综 合 不 同 厂 家 的 方案 ,构造 了 一 个 供 商 枞 的 云 计 
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算 体系 结构 。 这 个 体系 结构 如 图 1-1 所 示 ， 它 概括 了 不 同 解决 方案 的 主要 特征 ， 每 一 种 方案 
或 许 只 实现 了 其 中 部 分 功能 ， 或 许 也 还 有 部 分 相对 次 要 功能 尚未 概括 进来 。 

SOA 构建 层 


管理 中 间 件 层 
用 户 管理 用 户 环境 配置 | 用 户 交 互 管理 
安 | 访问 授权 
pat ZH | 


xau 





图 1-1 云 计算 技术 体系 结构 

云 计算 技术 体系 结构 分 为 4 层 : 物理 资源 层 、 资 源 池 层 、 管 理 中 间 件 层 和 SOA( 面 向 服 
务 的 体系 结构 ) 构 建屋 ， 如 图 1-1 所 示 。 物 理 资 源 层 包 括 计 算 机 、 存 储 希 、 网 络 设施 、 数 据 
库 和 软件 等 ， 资 源 池 层 是 将 大 量 相 同类 型 的 资源 构成 同 构 或 接近 同 构 的 资源 池 ， 如 计算 资源 
池 、 数 据 资源 池 等 。 构 建 资源 池 层 更 多 是 物理 资源 的 集成 和 管理 工作 ， 例 如 研究 在 一 个 标准 
集装箱 的 空间 如 何 装 下 2000 个 服务 硕 、 解 决 散热 和 故障 节点 蔡 换 的 问题 并 降低 能 耗 ; 管理 
中 间 件 层 负 员 对 云 计 算 的 资源 进行 管理 ， 并 对 众多 应 用 任务 进行 调度 ,使 资源 能 够 高 效 、 安 
全 地 为 应 用 提供 服务 ，SOA 构建 层 将 云 计 算 能 力 封 装 成 标准 的 Web Services 服务 ， 并 纳入 到 
SOA 体系 进行 管理 和 使 用 ， 包括 服务 注册 、 查 找 、 访 问 和 构建 服务 工作 流 和 等。 管理 中 间 件 
层 和 资源 池 层 是 云 计算 技术 的 最 关键 部 分 ，SOA 构建 层 的 功能 更 多 地 依靠 外 部 设施 提供 。 

云 计 算 的 管理 中 间 件 层 负责 资源 管理 、 任 务 管 理 、 用 户 管理 和 安全 管理 等 工作 。 资 源 管 
理 人 负责 均衡 地 使 用 云 资源 扩 点 ， 检 测 市 点 的 故障 并 试图 恢复 或 屏蔽 之 ， 并 对 资源 的 使 用 情况 
进行 监视 统计 ; 任务 管理 负责 执行 用 户 或 应 用 提交 的 任务 ， 包 括 完 成 用 户 任务 映像 (Image ) 
的 部 着 和 管理 、 任 务 调度 、 任 务 执行 、 任 务 生命 期 管理 等 ;用户 管 理 是 实现 云 计 算 商 业 模式 
的 一 个 必 不 可 少 的 环节 ， 包 括 提供 用 户 交 互 接口 、 管 理 和 识别 用 户 吴 份 、 创 建 用 户 程序 的 执 
行 环境 、 对 用 户 的 使 用 进行 计 费 等 ;安全 管理 保障 云 计 算 设 施 的 整体 安全 ， 包 括 喘 份 认证 、 
访问 授权 、 丝 合 防护 和 安全 审计 等 。 

基于 上 述 体系 结构 ， 本 书 以 aas 云 计算 为 例 ， 简 述 云 计 算 的 实现 机 制 ， 如 图 1-2 所 示 。 

用 户 交 互 接口 回应 用 以 Web Services 方式 提供 访问 接口 ， 获 取 用 户 需 求 。 服 务 目 录 是 用 
户 可 以 访问 的 服务 清单 。 系 统管 理 模块 负责 管理 和 分 配 所 有 可 用 的 资源 ， 其 核心 是 负载 均 
衡 。 配 置 工具 负责 在 分 配 的 方 点 上 准备 任务 运行 环境 。 监 视 统计 模块 人 负 贡 监视 市 点 的 运行 状 
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图 1-2 简化 的 Iaas 实现 机 制 
态 ， 并 完成 用 户 使 用 市 点 情况 的 统计 。 执 行 过 程 并 不 复杂 : 用 户 交 互 接 口 允许 用 户 从 目录 中 
选取 并 调用 一 个 服务 。 该 请 求 传 递 给 系统 管理 模块 后 ， 它 将 为 用 户 分 配 恰 当 的 资源 ， 然 后 调 
用 配置 工具 来 为 用 户 准备 运行 环境 。 


L3 网 格 计算 与 云 计算 


与 云 计算 不 同 ， 网 格 计 算 已 经 是 一 个 老 词 了 。 当 云 计 算 “ 大 红 大 紫 ” 的 时 候 ， 人 们 很 
少 提 及 网 格 计算 ， 不 过 网 格 计算 与 云 计算 有 着 很 次 的 渊源 。 

网 格 计算 (Grid Computing ) 是 通过 利用 大 量 异 构 计 算 机 (通常 为 更 面 ) 的 未 用 资源 | CPU 
(中 央 处 理 硕 ) 周 期 和 磁盘 存储 ] ， 将 其 作为 般 人 在 分 布 式 电信 基础 设施 中 的 一 个 虚拟 的 计算 
机 集群 ， 为 解决 大 规模 的 计算 问题 提供 了 一 个 模型 。 网 格 计算 的 焦点 放 在 文 持 览 管理 域 计 算 
的 能 力 上 ， 运 用 平行 运算 ,看重 于 企业 间或 跨 企 业 的 资源 充分 运用 ， 共 同 解 决 困 难 的 运算 任 
务 。 这 使 它 与 传统 的 计算 机 集群 或 传统 的 分 布 式 计算 相 区 别 。 

云 计算 (Cloud Computing) 是 一 种 基于 互联 网 的 计算 新 方式 ， 通 过 互联 网 上 异 构 、 自 治 的 
服务 为 个 人 和 企业 用 户 提 供 按 需 即 取 的 计算 。 由 于 资源 是 在 互联 网 上 ， 而 在 计算 机 流程 图 
中 ， 互 联网 常 以 一 个 云 状 图 案 来 表示 ， 因 此 可 以 形象 地 类 比 为 云 ,，“ 云 ”同时 也 是 对 底层 基 
人 础 设施 的 一 种 抽象 概念 。 

云 计算 的 资源 是 动态 多 扩展 而 且 虚 拟 化 的 ， 通过 互联 网 提供 。 终 端 用 户 不 需要 了 解 
“ 云 ” 中 基础 设施 的 细 市 ， 不 必 上 共有 相应 的 专业 知识 ， 也 无 害 和 直接 进行 控制 ， 只 关注 目 己 在 
正和 需要 什么 样 的 资源 以 及 如 何 通 过 网 络 来 得 到 相应 的 服务 。 虽 然 云 计算 源 日 平行 运算 的 技 
AR, 不 脱离 网 格 计算 的 概念 ， 但 是 云 计算 更 专注 于 数据 的 处 理 。 

云 计 算 其 实质 还 是 与 以 往 各 类 计算 机 运行 的 基本 过 程 一 样 : 由 输入 喘 输 入 数据 ， 经 数据 
处 理 后 ， 再 由 输出 端 输出 处 理 后 的 数据 。 云 计算 与 网 格 计算 的 最 大 差 寞 在 于 计算 量 ， 云 计算 
大 都 以 单一 主机 服务 用 户 ， 主 要 仿 问 少量 而 多 次 的 计算 ， 少 次 而 大 量 的 计算 易 使 资源 用 尺 ， 
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致使 其 他 服务 停摆 或 拒绝 服务 ; 网 格 计 算是 以 多 主机 来 做 计算 支持 ， 在 少 次 而 大 量 的 计算 时 
较为 有 效率 ， 在 此 情况 下 ， 网 格 计 算 域内 的 计算 机 资源 可 互相 支持 , 不 会 有 资源 用 尽 的 
顾虑 。 

目前 ， 虽 然 云 计算 的 概念 还 没有 统一 ， 但 云 计 算 已 经 在 人 民生 活 中 应 用 。 比 如 ， 公 交 
IC( 集 成 电路 ) 卡 目前 只 是 使 用 了 预购 车 票 球 的 加 减 功 能 ， 如 采 将 IC 卡 上 输入 更 多 的 持 卡 人 
的 信息 ， 再 将 读 卡 右 联 系 起 来 ， 就 可 以 读 出 某 一 时 段 什 么 年 龄 的 人 乘 车 多 、 从 哪里 上 车 哪里 
下 后、 什么 线路 的 车 辆 拥挤 等 大 量 信息 。 

云 计算 是 网 格 计算 、 并 行 计 算 和 分 布 式 计算 的 发 展 ， 或 者 说 是 这 些 计算 机 科学 概念 的 商 
业 实 现 。 云 计算 是 虚拟 化 、 效 用 计算 、Iaas PaaS, SaaS 等 概念 混合 演进 并 跃升 的 结果 。 

1. 云 计 算 

使 用 云 计算 ， 企 业 马 上 就 能 大 幅 提 高 有 目 己 的 计算 能 力 ， 而 不 需要 投资 新 的 基础 设施 、 开 
展 新 的 培训 或 者 购买 新 的 软件 许可 证 。 云 计算 最 适合 希望 将 数据 中 心 基础 设施 全 部 外 包 的 
中 、 小 型 企业 ,或 者 希望 不 用 花费 高 额 成 本 建立 更 大 的 数据 中 心 就 可 获得 更 高 负 丛 能 力 的 大 
型 企业 。 不 论 哪 种 情况 ， 服 务 消费 者 都 在 互联 网 上 使 用 所 需要 的 服务 并 只 为 所 使 用 的 服务 
付费 。 

服务 消费 者 不 用 再 守 在 PC 劳 边 使 用 PC 上 的 应 用 程序 ， 或 者 购买 针对 特定 智能 手机 、 
PDA( 个 人 数字 助理 ) 及 其 他 设备 的 版 本 。 消 费 者 不 必 拥 有 云 中 的 基础 设施 、 软 件 或 平台 ， 
因此 降低 了 前 期 成 本 、 资 本 支出 和 运营 成 本 。 消 费 者 也 不 用 关心 云 中 的 服务 器 和 网 络 怎么 维 
护 。 消 费 者 可 以 访问 任何 地 方 的 多 台 服 务 右 ， 不 需要 知道 使 用 的 是 哪 一 台 服 务 右 以 及 它们 的 
位 置 。 

2. 网 格 计 算 

云 计 算是 从 网 格 计算 演化 来 的 ， 能 够 随 需 应 变 地 提供 资源 。 网 格 计算 可 以 在 云 中 ， 也 可 
以 不 在 ， 这 取决 于 什么 样 的 用 户 在 使 用 它 。 如 采用 户 是 系统 党 理 员 或 集成 黄 ， 他 们 就 会 关心 
如 何 维 护 云 。 他 们 升级 、 安 竣 和 虚拟 化 服务 带 与 应 用 程序 。 如 采用 户 是 消费 者 ， 就 不 必 关 心 
系统 是 如 何 运 行 的 。 

网 格 计算 要 求 软件 的 使 用 可 以 分 为 多 个 部 分 ， 将 程序 的 片段 作为 大 的 系统 映像 传递 给 几 
二 个 计算 机 中 。 网 格 的 一 个 问题 是 如 果 某 个 市 点 上 的 软件 片段 失效 ， 可 能 会 影响 到 其 他 市 点 
上 的 软件 片段 。 如 果 这 个 片段 在 其 他 市 点 上 可 以 使 用 故障 转移 组 件 ， 那 么 就 可 以 绥 解 问题 ， 
但 是 如 果 软 件 片 段 依赖 其 他 软件 片段 完成 一 项 或 多 项 网 格 计算 任务 ， 那 么 问题 仍然 得 不 到 解 
决 。 大 型 系统 镜像 以 及 用 于 操作 和 维护 的 相关 便 件 可 能 造成 很 高 的 货 本 和 运营 文 出 。 

3. 异同 点 

云 计 算 和 网 格 计算 都 是 可 伸缩 的 。 可 伸缩 性 是 通过 独立 运行 在 通过 Web 服务 连接 的 各 
种 操作 系统 上 的 应 用 程序 实例 的 负载 平衡 实现 的 。CPU 和 网 络 带宽 根据 需要 分 配 和 回收 。 
系统 存储 能 力 根据 特定 时 间 的 用 户 数量 、 实 例 的 数量 和 传输 的 数据 量 进 行 调整 。 

两 种 计算 类 型 都 涉及 多 承租 (Multitenancy) 和 多 任务 ， 即 很 多 用 户 可 以 执行 不 同 的 任务 , 
访问 一 个 或 多 个 应 用 程序 实例 。 通 过 大 型 的 用 户 池 共 盏 资源 来 降低 基础 设施 成 本 ， 提 高 峰 信 
负 衍 能 力 。 云 计算 和 网 格 计算 都 提供 了 服务 水 平 协议 (SLA) 以 保证 可 用 性 ， 比 如 99% an 
采 服 务 达 不 到 承诺 的 正常 运行 时 间 ， 消 费 者 将 由 于 数据 延迟 而 得 到 服务 补偿 。 

亚马逊 S3 在 云 中 提供 了 存储 和 数据 检索 Web 服务 。 设 置 在 S3 中 能 够 存储 的 对 象 数 量 
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A 第 1 章 云 计算 理论 A 


的 最 大 上 限 ， 可 以 存储 只 有 1B 的 对 象 ， 也 能 存储 5GB 甚至 TB 级 的 对 象 。S3 对 于 对 和 象 的 每 
个 存储 位 置 使 用 “ 桶 ( Bucket)” 作 为 容 副 。 这 些 数 据 采 用 和 亚 马 撑 电子 商务 网 站 相同 的 数 
据 存 储 基础 设施 安全 地 实现 存储 。 

虽然 网 格 中 的 存储 计算 非常 适合 数据 密集 型 存储 ， 但 是 存储 TB 大 小 的 对 象 从 经 济 上 来 
说 不 合适 。 在 数据 网 格 中 ， 分 布 式 数据 的 数量 必须 足够 大 才能 发 挥 最 大 效益 。 

计算 型 网 格 关注 的 是 计算 量 非常 大 的 操作 。 云 计算 中 的 亚马逊 Web Services 提供 了 两 种 
实例 : 标准 和 高 CPU, 


14 云 计算 的 发 展 环境 





1.4.1 云 计 算 与 3G 移动 通信 


3G 移动 通信 和 是 第 三 代 移 动 通信 的 缩 略 语 。3G 移动 通信 和 是 指 支 持 高 速 数据 传输 的 蜂 窒 移 
动 通 信 技 术 ， 是 将 无 线 通 信和 与 互联 网 相 结 合 的 新 一 代 通 信 技 术 。 有 目前 国际 电信 联盟 确定 了 三 
个 3G 移动 通信 标准 制式 ，CDMA2000、WCDMA 和 TD - SCDMA。 在 我 国 ， 中 国电 信人 公司 、 
中 国联 通 公 司 、 中 国 移动 公司 分 别 运 营 这 三 种 不 同 制 式 的 3G 移动 通信 了 网络。39G 移动 通信 
的 代表 特征 是 具有 高 速 数据 传输 能 力 ， 能 够 提供 2Mbivs 以 上 的 带宽 。 因 此 ，396G 移动 通信 
可 以 文 持 语音 、 图 像 、 音 乐 、 视 频 、 网 页 、 电 话 会 议 等 多 种 多 媒体 移动 通信 业务 。 

3G 移动 通信 与 云 计 算是 相互 依存 、 相 互 促进 的 关系 。 一 方面 ，3G 移动 通信 将 为 云 计算 
带 来 数 以 亿 计 的 移动 宽带 用 户 。 到 2009 年 7 月， 全球 移动 用 户 已 达 44 亿 ， 普 及 率 达 65% 。 
3G 移动 通信 用 户 已 超过 5 亿 ， 并 以 惊人 的 速度 增长 。2009 年 是 我 国 的 3G 元 年 ， 当 年 用 户 
数 就 超过 一 千 万 。 这 些 用 户 的 终端 是 手机 、PDA 、 便 携 式 计 算 机 等 ， 计 算 能 力 与 存储 空间 有 
限 ， 却 有 很 强 的 联网 能 力 ， 对 云 计 算 有 着 天 然 的 需求 ， 将 实 实在 在 地 文 持 云 计 算 取 得 商业 成 
功 ; 另 一 方面 ， 云 计算 能 给 3G 移动 通信 用 户 提 供 更 好 的 用 户 体验 。 云 计算 有 强大 的 计算 能 
力 、 接 近 无 限 的 存储 空间 ， 并 支撑 各 种 各 样 的 软件 和 信息 服务 ， 能 够 为 3G 移动 通信 用 户 提 
供 前 所 未 有 的 服务 体验 。 


1.4.2 云 计算 与 物 联网 


物 联网 即 “ 物 物 相连 的 互联 网 ” 。 物 联网 通过 大 量 分 散 的 射频 识别 、 传 感 硕 ，GPS( 全球 
定位 系统 ) 、 激 光 扫 描 需 等 小 型 设备 ， 将 感知 的 信息 通过 互联 网 传输 到 指定 的 处 理 设施 上 进 
行 智 能 化 处 理 ， 完 成 识别 、 定 人 位、 跟踪、 监控 和 管理 等 工作 。 党 统 地 看 ， 物 联网 属于 传 感 网 
的 范畴 。 其 实 ， 传 感 带 的 应 用 历史 悠久 而 且 相 当 普 及 。 那 为 什么 还 捉 物 联网 的 概念 呢 ? 物 联 
网 是 传 感 网 的 一 个 高 级 阶段 ， 它 通过 大 量 信息 感知 书 点 采集 信息 ， 通 过 互联 网 传输 和 交换 信 
上 县， 通过 强大 的 计算 设施 处 理 信息 ， 然 后 再 对 实体 世界 发 出 反馈 和 控制 信息 。 

物 联 网 根据 其 实质 用 途 可 以 归结 为 三 种 基本 应 用 模式 对 象 的 智能 标签 、 环 境 监 控 和 对 
象 跟踪 与 对 象 的 智能 控制 。 物 联网 基于 云 计算 平 合 和 智能 网 络 ， 可 以 依据 传 感 伏 网 络 用 获取 
的 数据 进行 决策 ， 改 变 对 象 的 行为 进行 控制 和 有 反馈。 

云 计算 服务 物 联 网 的 驱动 力 有 以 下 三 个 方面 : 

1) 需求 驱动 : 海量 数据 的 处 理 在 日 前 搁 术 下 有 蜗 成 本 压力 。 云 计算 充分 利用 并 合理 使 
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HEW, BEI ee BAK 

2) 技术 驱动 : IT 5i CTH BOR) RRS, HEN IT 架构 的 升级 。 云 计算 的 标准 逐渐 
快速 发 展 。 

3) KRIK: 政府 的 低 碳 经 济 与 节能 减 排 的 政策 要 求 。 政 府 高 度 关 注 物 联网 、 云 计算 
等 基础 设施 目 助 发 展 成 略 。 

物 联 网 具有 全 面 感知 、 可 徘 传递 和 智能 处 理 三 个 特征 ， 其 中 智能 处 理 和 需要 对 海量 的 信息 
进行 分 析 和 处 理 ， 对 物体 实施 智能 化 的 控制 ， 这 就 需要 信息 技术 的 文 持 。 云 计算 具有 超大 规 
模 、 虚 拟 化 、 多 用 户 、 高 可 徘 性 、 高 扩展 性 等 正式 物 联网 规模 化 、 镶 能 化 发 展 所 需 的 技术 。 

云 计算 架构 在 互联 网 之 上 ， 而 物 联 网 主要 依赖 互联 网 来 实现 有 效 延 伸 ， 云 计算 模式 可 以 
文 撑 具有 业务 一 致 性 的 物 联 网 集约 运营 。 因 此 ， 很 多 研究 提出 了 构建 基于 云 计算 的 物 联网 运 
营 平 台 ， 该 平台 主要 包括 云 基础 设施 、 云 平台 、 云 应 用 和 云 管 理 。 依 托 公 众 通信 网 络 ， 以 数 
据 中 心 为 核心 ， 通过 多 介入 终端 实现 泛 在 接 入 ， 面 向 服务 的 端 到 端 体系 染 构 。 基 于 云 计 算 模 
式 ， 实 现 资源 共 圣 和 产业 协作 ， 提 融 效 率 ， 降 低 成 本 ， 提 升 服 务 。 

有 观点 认为 云 计算 是 物 联 网 “后 端 ” 文 撑 关 键 。 所 谓 物 联 网 的 “后 端 ” 是 实现 物 联 网 
和 贸 能 化 管理 目标 和 价值 奶 求 的 天 键 所 在 。 云 计算 协同 信息 处 理 与 计算 平台 对 信息 处 理 与 决 
琐 。 实 时 感应 、 高 度 并 发 、 日 主 协同 和 涌现 效应 等 特征 对 物 联网 “后 端 ” 提 出 了 新 的 挑战 ， 
需要 有 针对 性 的 研究 物 联网 特定 的 应 用 集成 问题 、 体 系 结构 以 及 标准 规范 ， 特 别 是 大 量 高 并 
发 时 间 驱 动 的 应 用 目 动 天 联 和 智能 协作 问题 。 在 互联 网 计算 领域 ， 将 软件 的 实现 与 运 维和 用 
法 相关 部 分 (服务 ) 相 剥离 ， 并 纳入 的 互联 网 级 基 设 中 ， 这 是 大 势 所 趋 。 而 互联 网 级 基 设 也 
是 云 计算 、 网 格 计算 的 本 质 所 在 。 

物 联 网 与 云 计 算是 交互 辉映 的 关系。 一 方面 ， 物 联网 的 发 展 也 离 不 开 云 计算 的 支撑 。 从 
量 上 看 ， 物 联网 将 使 用 数量 惊人 的 传 感 瘟 [ 如 数 以 亿 万 计 的 RFID( 射频 识别 ) .智能 尘埃 和 视 
频 监 控 等 ] ， 采 集 到 的 数据 量 怀 人 。 这 些 数 据 震 要 通过 无 线 传 感 网 、 宽 市 互联 网 回采 些 存储 
和 处 理 设 施 汇聚 ， 而 使 用 云 计算 来 承载 这 些 任 务 具 有 非常 显著 的 性 价 比 优势 ; MAR poA, fu 
用 云 计算 设施 对 这 些 数据 进行 处 理 、 分 析 、 挖 据 ， 可 以 更 加 迅速 、 准 确 地 管理 物质 世界 ， 从 
而 达到 “ 知 曼 ”的 状态 ， 大 幅度 提高 货源 利用 靳 和 社会 生产 力 水 平 。 可 以 看 出 ， 云 计算 和 攒 
代 其 强大 的 处 理 能 力 、 和 存储 能 力 和 极 高 的 性 价 比 ， 很 目 然 就 会 成 为 物 联网 的 后 台 支 撑 平 台 ; 
为 一 方面 ， 物 联网 将 成 为 云 计算 最 大 的 有 用户， 将 为 云 计 算 取 得 更 大 的 商业 成 功 艳 定 基 石 。 


1.4.3 云 计算 与 移动 互联 网 


互联 网 与 移动 通信 网 是 当今 最 上 其 影响 力 的 两 个 全 球 性 的 网 络 ， 移 动 互 联网 恰恰 融合 了 两 
者 的 发 展 优势 ， 被 称 作 破 坏 性 创新 的 云 计算 ， 在 宽 市 移动 互联 网 上 将 成 为 一 种 绕 不 开 的 趋 
势 。 市 场 调研 公司 认为 ， 云 计算 将 成 为 移动 世界 中 的 一 股 爆 破 理论 ， 最 终 会 成 为 移动 应 用 的 
主要 运行 方式 。 和 营 握 了 云 计 算 核心 技术 的 企业 无 疑 在 移动 互联 网 时 代 可 以 获得 更 强 的 主 
动 性 。 

移动 互联 网 和 云 计算 是 相辅相成 的 。 通 过 云 计算 技术 ， 软 、 便 件 获得 空前 的 集约 化 应 
用 ， 人 们 完全 可 以 通过 手持 一 个 终端 ， 就 能 实现 传统 PC 能 达到 的 功能 。 两 者 在 软 、 硬 件 设 
施 成 本 上 的 极 大 市 约 为 中 、 小 企业 市 来 了 福 首 ， 为 人 们 市 来 了 舒适 和 便捷 。 

云 计算 和 移动 互联 网 似乎 天 生 就 是 绝 配 。 手 机 拥有 便捷 性 和 通信 能力 等 众多 天然 优 扫 ， 
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而 计算 能 力 、 存 储 能 力 弱 ， 虽 然 各 厂商 推出 的 手机 正 逐 渐 癌 智能 化 演进 ， 但 受 限 于 体积 和 便 
携 性 的 要 求 ， 短 时 间 内 手机 的 处 理 能 力 难 以 和 计算 机 相 比 。 

从 这 点 出 发 ， 云 计算 的 特点 更 能 在 移动 互联 网 上 充分 体现 ， 将 应 用 的 计算 与 存储 从 终端 
转移 到 服务 天 的 云端 ， 从 而 弱化 了 对 移动 终端 设备 的 处 理 需 求 ， 成 为 新 业务 的 发 展 瓶 令 ， 在 
云 计 算 下 ， 只 要 配备 功能 强大 的 训 览 天 承 能 应 用 各 种 新 业务 ， 在 后 合 云 计 算 的 存储 量 和 计算 
能 力也 解决 了 手机 存储 量 有 限 和 丢失 信息 等 问题 。 同 时 ， 实 现 了 手机 移动 和 固定 计算 、 便 携 
式 计算 机 的 协同 。 对 于 追求 个 性 化 的 移动 互联 网 市 场 来 说 ， 云 计算 的 力量 十 分 关键 。 

移动 互联 网 时 代 的 来 临 ， 对 用 户 来 讲 ， 最 好 的 体验 是 淡化 有 线 和 无 线 的 概念 。 在 这 样 的 
理念 下 ， 云 计算 有 望 突破 各 种 终端 ， 包 括 和 手机、 计算机、 电视 和 视听 设备 等 在 存储 及 运算 能 
力 上 的 限制 ， 显 示 的 内 容 、 应 用 都 能 保持 一 致 性 和 同步 性 。 各 大 开 广 商都 是 利用 云 计 算 制 
定 如 Iaas PaaS 和 SaaS 策略 ， 和 希望 通过 互联 网 的 力量 ， 以 软件 为 基准 ， 将 无 颖 的 服务 提供 
给 移动 终 问 用 户 。 

云 计 算 正 从 互联 网 逐渐 过 渡 到 移动 互联 网 。 目 前 社交 网 站 越 来 越 火爆， 国外 的 Facebook 
以 及 国内 的 人 人 网 、 开 心 网 等 都 是 其 典型 的 代表 。 社 交 网 站 运用 云 计算 思维 ,实现 了 网 站 上 
各 种 信息 的 同步 更 新 。 沿 着 这 个 思路 的 移动 云 计算 已 经 出 现 ， 如 摩托 罗拉 公司 推出 的 手机 解 
RTT Ro 

如 今 ， 随 着 一 些 典 型 的 互联 网 云 计 算 应 用 ， 互 联网 的 云 与 端 之 间 已 经 形成 了 平滑 对 接 ， 
而 在 移动 互联 网 上 ， 云 与 闫 之 间 还 需要 “ 管 ” 来 沟通 它们 之 间 的 鸿沟 。 浏 览 硕 或 许 将 成 为 
重要 的 “ 管 ” 角 色 。 

去 计算 对 于 云 与 端的 两 侧 都 具有 传统 模式 不 可 比拟 的 优势 。 在 云 一 侧 ， 为 内 部 开发 者 和 
业务 使 用 者 提供 更 多 的 服务 ， 提 升 基础 设施 的 使 用 效 认 和 资源 部 署 的 灵活 性 ; TEXS— DU, BE 
够 迅速 部 署 应 用 和 服务 ， 按 需 调整 业务 使 用 量 。 从 目前 云 计 算 的 成 功 案例 中 可 以 看 出 云 计算 
极 大 地 提高 了 互联 网 信息 技术 的 性 能 ， 具 有 巨大 的 计算 和 成 本 优势 。 


1.4.4 云 计 算 与 三 网 融合 


所 请 的 三 网 融合 ， 是 指 广播 电视 网 、 电 信和 网 与 互联 网 的 融合 ， 其 中 互联 网 是 核心 。 据 国 
务 院 三 网 融合 领导 小 组 专家 组 组 长 、 中 国 工 程 院 副 院 长 郭 足 狂 估算 ， 三 网 融合 局 动 的 相关 产 
业 市 场 规模 达 6880 亿 元 人 民 币 。 其 中 电信 宽带 升级 、 广 电 双 回 网 络 改造 、 机 项 盒 产 业 发 展 
以 及 基于 音频 、 视 频 内 容 的 信息 服务 系统 建设 的 有 效 投资 额 为 2490 亿 元 人 民 币 ， 可 激发 和 
释放 的 信息 服务 与 终端 消费 额 近 4390 亿 元 人 民 币 。 

三 网 融合 被 纳入 “十 二 五 ”规划 ， 并 明确 写 入 《国务 院 关 于 加 快 培育 和 发 展 战略 性 新 
兴 产 业 的 决定 》。 业 内 权威 专家 认为 ， 三 网 融合 的 政策 持续 加 码 ， 将 推动 电信 和 广电 业务 相 
互 进入 、 广 电网 络 整合 、 网 络 运 依 商 角 色 再 定位 等 一 系列 结 命 性 变化 同步 加 速 。 仅 中 国电 信 
一 家 运营 商 ， 其 两 年 内 用 于 宽 市 升级 的 投资 将 达到 近 300 亿 元 人 民 币 。 

云 计算 使 计算 能 力 从 分 散 终 端 癌 网 络 综合 服务 转变 ， 使 商业 模式 从 网 络 设备 基础 设施 问 
服务 转变 ， 从 连续 计算 机 资源 回 连 接 个 人 和 设备 转弯 。 云 计算 的 基础 仍然 是 宽 市 ， 其 服务 于 
段 和 服务 对 象 郡 需要 宽 市 。 社 会 的 各 种 生活 eA AL En Ae eH T BOR, Bl 
也 加 大 了 对 宽 市 业务 的 投入 ， 各 广 商 也 都 在 加 大 对 宽 市 业务 的 研发 。 

业内 专家 认为 ， 随 着 三 网 融合 政策 的 出 台 ， 以 及 下 一 代 广 电网 络 的 出 现 ， 云 计算 不 但 会 
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为 现 有 广电 和 电信 产业 市 来 新 商机 ， 还 会 大 大 拓展 相关 产业 链 ， 使 更 多 企业 受益 ， 为 云 计 算 
提供 切实 的 应 用 机 会 。 三 网 融合 和 下 一 代 广 电网 项 目 是 要 为 用 户 提 供 多 样 、 便 捷 的 服务 。 由 
于 云 计算 能 够 大 大 降低 数据 和 存储、 计算 和 分 发 成 本 ,一些 以 前 无 法 实现 的 应 用 ， 现 在 部 有 可 
能 变 成 现实 。 云 计算 完成 计算 任务 ， 加 上 物 联 网 等 终 问 应 用 和 3G 移动 通信 的 数据 信息 传 
输 ， 将 三 网 整合 形成 一 个 系统 的 信息 采集 、 接 收 和 处 理 的 整体 。 

三 网 融合 和 下 一 代 广电 网 络 的 最 终日 标 是 构建 全 数据 、 全 融合 的 国家 骨干 网 络 ， 借 助 云 
计算 技术 ， 下 一 代 广 电网 络 还 会 与 传统 行业 相 融 合 ， 实 现 诸 如 远程 教育 、 网 络 医疗 会 诊 、 股 
票 信息 、 交 通 查 询 、 精 确 广告 投放 等 更 多 应 用 。 有 了 云 计 算 技 术 ， 一 些 从 事 传统 行业 的 企业 
也 能 搭 上 三 网 融合 和 下 一 代 广 电网 的 快 和 车。 例如， 传统 的 GPS 厂商 只 是 生产 两， 而 信 助 于 
云 计 算 技术 ， 他 们 可 以 成 为 服务 性 企业 ， 通 过 增值 业务 获得 更 多 收入 。 中 国电 子 协 会 计算 机 
委员 会 专家 刘 鹏 认为 ， 云 计算 在 三 网 融合 以 及 下 一 代 广 电网 中 的 应 用 ， 涉 及 数据 人 存储、 数据 
计算 、 数 据 再 处 理 、 软 件 开 发 、 数 据 传 输 、 网 络 协同 等 多 个 方面 ， 因 此 需要 大 量 不 同类 型 的 
企业 参与 其 中 。 


1.5 各 大 IT 厂商 云 计算 平台 特点 概述 





















































1. 谷歌 公司 

谷歌 公司 在 互联 网 搜索 方面 建立 了 强大 的 商业 模式 ， 同 时 也 是 云 计算 领域 的 重要 实践 
者 。 人 谷歌 公司 在 其 传统 搜索 引擎 Gmail, Google Web API 等 产品 的 基础 上 针对 上 自己 特定 的 
网 格 应 用 程序 开展 起 了 众多 云 计算 业务 ， 现 在 不 仅 提 供 云 服 务 给 众多 个 人 消费 者 ， 而 且 还 涉 
足 企 业 用 户 ， 所 提供 的 服务 形式 包括 应 用 托管 服务 和 企业 搜索 等 。 为 了 文 撑 其 云 计 算 平 台 ， 
谷歌 公司 在 IT 基础 架构 方面 进行 了 巨大 的 投入 ， 它 在 美国 的 爱 何 华 州 、 北 卡 罗 羔 纳 州 和 南 
卡 罗 莱 纳 州 等 州 近 期 已 经 完成 或 正在 构建 全 新 的 数据 中 心 ， 平 均 每 个 造价 高 达 6 亿美 元 。 

这 里 将 主要 介绍 Google App Engine( 谷歌 应 用 引擎 ,CAE ) 和 Google Apps 这 两 个 云 服务 。 

(1) GAE 

2008 年 4 月 ， 谷 歌 公 司 推 出 了 Google App Engine。 这 是 一 个 可 伸缩 的 Web 应 用 程序 云 
平台 ， 使 用 户 能 够 在 谷歌 公司 基础 设施 上 构建 和 托管 Web 应 用 程序 。GAE 提供 了 一 个 SDK 
(软件 开发 工具 包 ) ， 使 用 户 可 以 在 本 地 使 用 Java 或 者 Python 开发 和 测试 Web 应 用 程序 ， 然 
Jai TE we fe GAE 的 生产 环境 中 进行 运行 、 监 控 和 管理 。 

GAE 开始 是 免费 使 用 ， 可 提供 超过 SOOMB 的 存储 空间 ， 以 及 每 月 约 500 万 页 面 浏览 量 
的 免费 配额 。 用 户 可 以 创建 账户 ， 发 布 应 用 程序 ， 而 无 需 承 担任 何 费用 和 风险 。 当 应 用 程序 
局 用 付费 后 ， 配 额 将 提高 ， 但 用 户 只 需 为 使 用 的 超过 免费 水 平 的 资源 付费 。 

GAE 基于 谷歌 公司 早 就 建立 起 来 的 底层 平台 。 这 个 平台 包括 MapReduce 分 布 式 处 理 技 
AK. GFS( Google File System ,谷歌 分 布 式 文件 系统 ) 和 分 布 式 数 据 库 BigTable。 其 中 ，MapRe- 
duce API 提供 Map ( EE) 和 Reduce( 化 简 ) 处 理 ，GFS 和 BigTable 提供 数据 存 取 。 

(2) MapReduce 分 布 式 处 理 技术 

为 了 简化 分 布 式 编程 模式 ,谷歌 公司 设计 了 适合 于 大 规模 并 行 数据 处 理 的 编程 模型 
MapReduce， 并 将 其 用 于 目 刁 的 搜索 引擎 系统 。 该 模型 用 于 大 规模 数据 集 ( 大 于 1TB ) 的 并 行 
运算 ， 使 应 用 程序 编写 人 员 只 需要 将 精力 放 在 应 用 程序 本 号 上 ， 而 关于 计算 机 群 的 可 对 性 、 
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可 扩展 性 等 问题 则 交 由 平台 来 处 理 。 它 可 以 实现 应 用 程序 和 底层 分 布 式 处 理 机 制 的 隔离 ， 比 
如 数据 分 布 、 调 度 和 容错 等 ， 并 且 尽 可 能 地 将 计算 指令 分 配 在 那些 保存 分 布 式 文件 系统 的 数 
据 方 点 上 ， 以 减少 网 格 的 负载 。 这 种 模型 的 核心 思想 是 将 需要 运算 的 问题 拆 解 成 Map 和 Re- 
duce 这 两 个 简单 的 步 召 。 首 先 通 过 Map 程序 将 数据 切 成 很 多 运算 块 ， 然 后 分 配给 大 量 不 同 
的 计算 机 处 理 ， 最 后 通过 Reduce 程序 将 结 采 合成 ， 输 出 用 户 需 要 的 结 采 。 这 种 编程 模型 适 
用 于 海量 数据 输入 和 数据 统计 等 可 切 分 工作 。 

(3) GFS 

GFS 是 一 个 可 扩展 、 结 构 化 的 分 布 式 文件 系统 ， 它 基于 Linux 操作 系统 普通 的 文件 系统 
(如 Exi3 等 ) ， 将 多 台 计 算 机 上 的 存储 空间 统一 管理 起 来 ， 可 以 文 持 大 型 、 分 布 式 大 数据 量 
的 读 写 操作 ， 其 容错 性 较 强 。 在 GFS 中 ， 数 据 以 64MB 的 数据 块 为 存储 单位 ， 分 布 存 放 到 不 
同 的 计算 机 上 ; 每 份 数据 至 少 在 三 台 计 算 机 上 存在 副本 ， 并 且 会 保证 数据 间 的 同步 ; 2g Yn 
约 空间 ， 对 大 量 文本 型 的 数据 进行 压缩 保存 。 

(4) BigTable 

基于 内 存 的 结构 化 数据 的 存储 系统 。 不 像 关 系 型 数据 库 ( 比 如 DB2) ， 该 系统 对 事务 的 
文 持 能 力 很 有 限 ， 但 其 扩展 性 较 好 。 它 文 持 以 表 的 形式 来 操作 数据 ， 提 供 了 高 效 查 询 。 还 文 
持 查 询 结 果 的 排序 ， 包括 按 多 属性 进行 排序 。 它 通过 事务 分 组 来 控制 对 号 操作 的 事务 。 合 歌 
公司 的 很 多 应 用 ， 比 如 Gmail, Google Maps 都 把 数据 存储 在 BigTable 上 。 

(5) Google Apps 

除了 提供 GAE 云 平台 ,谷歌 公司 还 提供 了 很 多 基于 SaaS Wahi. Google Apps 提供 的 东 
西 包括 基于 Web 的 文档 、 电 子 数 据 表 以 及 其 他 生产 性 应 用 服务 。Google Apps 是 免费 提供 给 客 
户 使 用 的 ， 当 然 谷歌 公司 也 提供 收费 的 高 级 版 本 的 服务 (大 约 每 年 50 美元 )。 截 至 目前 , 已 经 
有 50 多 万 家 组 织 注 册 了 Google Apps， 整 个 Google Apps 的 用 户 数量 大 约 达 到 了 1000 万 。 

典型 的 谷歌 公司 云 计 算 应 用 程序 就 是 Google Docs 服务 。 由 于 借鉴 了 异步 网 络 数据 传输 
的 Web2.0 技术 ， 此 类 应 用 程序 给 予 用 户 全 新 的 界面 感受 以 及 更 强大 的 多 用 户 交 互 能 
Google Docs 是 一 个 给 予 Web 的 工具 ， 它 具有 和 微软 公司 Office 软件 相近 的 编辑 界面 ， 由 一 
套 向 单 多 用 的 文档 权限 管理 ， 而 且 还 可 以 记录 下 所 有 用 户 对 文档 所 做 的 修改 。Google Docs 
的 这 些 功 能 令 它 非常 适合 于 网 上 共 于 和 协作 编辑 文档 。Google Docs 甚至 可 以 用 于 监控 责任 
清晰 、 目 标明 确 的 项 目 进度 。 当 前 ，Google Docs 已 经 推出 了 文档 编辑 、 电 子 表 格 、 约 灯 搬 
演示 和 日 程 管理 等 多 个 功能 的 编辑 醒 块 ， 能 够 符 代 微软 公司 Office 软件 相应 的 部 分 功能 。 值 
得 注意 的 是 ， 通 过 这 种 云 计 算 方式 形成 的 应 用 程序 非 背 适合 于 多 个 用 户 进 行 共 享 以 及 协同 编 
辑 ， 为 一 个 小 组 的 人 员 进 行 共 同 创 作 囊 来 了 很 大 的 方便 。 

2. 亚马逊 (Amazon ) 公 司 

亚马逊 公司 是 美国 一 家 电子 商务 网 站 ， 也 是 美国 最 大 的 在 线 零售 商 ， 其 网 络 上 的 销售 祷 
大 约 是 美国 最 大 的 办 公用 品 零 售 商 Staples 公司 的 3 倍 。 亚 马 逊 公司 在 所 有 布 云 三 商 中 是 比 
较 特 殊 的 一 家 ， 因 为 它 并 不 是 传统 意义 上 的 开 厂 商 ， 但 却 在 IT 领域 的 云 计 算 上 做 得 风 生 水 
起 ， 成 为 业界 公认 的 云 计算 先行 者 之 一 。 

亚马逊 网 上 书店 成 立 于 1995 年 。 作 为 全 球 电子 商务 的 成 功 代 表 ， 该 公司 投入 了 巨大 的 
研发 力量 和 资金 来 建设 目 己 的 数据 中 心 ， 并 且 建 立 了 鉴 越 全 球 的 硬件 和 软件 基础 设施 ， 来 文 
持 目 己 的 互联 网 业务 。 他 们 和 硕 望 目 己 的 计算 中 心 可 以 被 别人 使 用 ， 于 是 将 那些 基础 设施 的 组 
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件 模块 化 并 且 出 租 。 这 样 亚马逊 公司 就 从 一 家 纯粹 的 网 络 书 店 或 者 商店 变 成 了 云 计 算 服务 
商 、 一 家 具有 高 科技 性 质 的 服务 公司 ， 开始 为 个 人 以 及 企业 提供 云 计算 服 务 。 

亚马逊 公司 的 云 计 算 服 务 AWS( Amazon Web Services) 主要 包含 四 个 核心 服务 : Simple 
storage Services, EC2( Elastic Compute Cloud), SQS(Simple Queue Service) 以 及 Simple DB, 

(1) Simple storage Services 

2006 4E 3 月 ， 亚 马 逊 公司 首先 推 出 的 云 计算 服务 是 简单 存储 服务 ， 它 实现 了 laas 的 存 
储 云 的 功能 ， 并 且 作 为 公共 存储 云 服 务 提供 给 个 人 和 企业 用 户 使 用 。 

亚马逊 公司 的 简单 存储 服务 S3 EPEAT PR TR. 、 低 成 本 的 基于 Web 的 服务 ， 主 要 
用 于 文档 、 图 片 、 影 像 以 及 其 他 应 用 程序 数据 的 在 线 备份 和 存档 。S3 允许 上 传 、 存 储 和 下 
载 1B ~5GB 大 小 的 文件 或 对 象 等 非 结 构 化 数据 。 亚 马 逊 公司 并 没有 限制 用 户 可 存储 的 项 目 
的 数量 。 据 亚马逊 公司 网 络 服务 网 页 报告 ，S3 是 用 最 低 限 度 的 功能 设置 来 设计 的 ， 并 且 开 
发 商 通过 它 可 以 更 容易 地 使 用 网 络 规模 计算 。 

在 S3 中 ， 用 户 数 量 存储 在 多 个 数据 中 心 的 匈 余 服务 右上 。 它 采用 一 个 简单 的 基于 Web 
的 界面 并 且 使 用 密 钥 来 验证 用 户 映 份 。 用 户 可 以 选择 设置 自己 的 数据 位 私有 数据 或 者 公开 数 
jn, 并且 可 以 在 存储 之 前 对 自己 的 数据 进行 加 密 该 存储 服务 按照 月 租金 的 形式 进行 服务 付 
寓 ， 同 时 用 户 还 需要 为 相应 的 网 络 流量 进行 付费 。 用 户 可 以 在 任何 地 方 通过 网 络 从 亚马逊 网 
站 获取 目 己 的 数据 。 在 美国 和 在 欧洲 提供 服务 的 费用 差异 是 微小 的 ; 在 欧洲 提供 1000 次 的 
网 络 存 取 服 务 ， 只 比 在 美国 贵 大 约 2000 美 分 。 

亚马逊 公司 的 S3 实际 上 是 一 个 互联 网 上 的 大 网 盘 。 它 没有 目录 和 文件 名 ， 只 是 一 个 大 
空间 ， 用 户 可 以 在 上 面 存 储 和 提取 目 己 的 非 结构 化 数据 。 可 以 认为 S3 的 结构 实际 上 是 一 个 
平面 文件 系统 。 然 而 ， 在 S3 中 除了 可 以 处 理 数 据 ， 也 可 以 处 理 对 象 。S3 中 的 对 象 可 以 看 作 
三 位 一 体 : 关键 字 、 数 值 和 元 数据 。 关 键 字 是 该 对 象 的 名 称 ， 数 值 是 具体 的 内 容 ， 元 数据 是 
一 组 描述 对 象 信 息 的 “ 键 值 ”对 。 对 象 的 名 称 可 以 是 3 ~ 255 个 字符 ， 但 是 不 能 采用 网 址 的 
格式 ， 例 如 “192. 168. 1. 1” 是 不 符合 格式 要 求 的 。 

(2) EC2 

EC2 是 一 个 证 用户 可 以 租用 云 计算 机 运行 所 需 应 用 的 系统 。EC2 信 由 提供 Web 服务 的 
方式 让 用 户 可 以 弹性 地 运行 自己 的 亚马逊 机 需 镜像 (AMI) 文件 ， 用 户 将 可 以 在 这 个 虚拟 机 上 
运行 任何 目 己 想 要 的 软件 或 应 用 程序 。 

用 户 可 以 随时 创建 、 和 运行、 终止 自己 的 虚拟 服务 磊 ， 使 用 多 少时 间 算 多 少 钱 ， 也 因此 这 
个 系统 是 “弹性 ”使 用 的 。EC2 让 用 户 可 以 控制 运行 虚拟 服务 硕 的 主机 地 理 位 置 ， 这 可 以 
让 延迟 还 有 备 援 性 最 高 。 例 如 ， 为 了 让 系统 维护 时 间 最 短 ， 用 户 可 以 在 每 个 时 区 都 运行 目 己 
的 虚拟 服务 需 。 亚 马 逊 公司 以 AWS 的 品牌 提供 EC2 的 服务 。 

2006 年 8 月 ， 亚 马 逊 公司 推出 了 其 最 重要 的 云 计算 服务 ， 也 就 是 AWS 现 有 业务 中 最 大 
HJ— Hz; EC2。 它 实现 了 laas 的 计算 云 的 功能 ， 并 且 作 为 公共 云 服 务 提供 给 个 人 和 企业 用 
户 使 用 。 企 业 需 要 计算 服务 时 ， 不 再 需要 目 行 购买 服务 硕 ， 而 是 可 以 改 癌 亚马逊 公司 租用 ， 
按 使 用 付费 。 亚 马 逊 公司 现 有 约 4 万 台 服 务 塘 ， 分 布 在 北美 洲 和 欧洲 用 以 文 持 EC2 服务 。 

亚马逊 公司 的 EC2 建立 在 其 自己 公司 内 部 的 大 规模 集群 计算 的 平台 之 上 ， 而 用 户 可 以 
通过 EC2 的 实例 是 一 些 正在 运行 的 虚拟 机 ， 每 个 实例 代表 一 台 正 在 运行 中 的 虚拟 机 。 对 于 
提供 给 某 一 个 用 户 的 虚拟 机 ， 该 用 户 具 有 完整 的 访问 权限 ， 包 括 针 对 该 虚拟 机 的 管理 员 用 户 
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权限 。 在 EC2 中 的 每 一 个 计算 实例 都 具有 一 个 内 部 的 IP 和 一 个 外 部 的 IP 地 址 进行 数据 通 
言 ， 以 获得 数据 通信 的 最 好 性 能 。 用 户 利用 分 配给 自己 的 弹性 TP 地 址 来 分 配 自己 的 运行 实 
例 ， 使 得 建立 在 EC2 上 的 服务 系统 能 够 为 外 部 提供 服务 。 客 户 端 通过 SOAP ( 简单 对 象 访 问 
协议 )over HTTPS ( 安全 超 文本 传输 协议 ) 来 实现 与 EC2 内 部 的 实例 进行 交互 ， 保 证 远 端 连 接 
的 安全 性 ， 以 解决 用 户 数 据 在 传输 过 程 中 的 安全 问题 。 

在 用 户 使 用 模式 上 ， 用 户 可 以 首先 创建 包括 操作 系统 、 应 用 程序 和 配置 设置 在 内 的 AMI 
也 可 使 用 亚马逊 公司 预先 提供 的 AMI EAL ARLES S3 并 注册 EC2 ， 接 着 创建 一 个 亚 
马 逊 机 器 映 像 认 证 符 (AMI ID) ， 最 后 调用 亚马逊 公司 的 应 用 程序 编程 接口 (API) ， 对 AMI 
进行 使 用 和 管理 。AMI 实际 上 就 是 虚拟 机 模板 ， 用 户 可 以 使 用 它 来 完成 任何 工作 ， 例 如 运 
行 数据 库 服 务 器 、 构 建 网 站 、 提 供 外 部 网 页 服务 ， 甚 至 可 以 出 租 自 己 具 有 特色 的 AMI 而 获 
得 收益 。 用 户 所 拥有 的 多 个 AMI 可 以 通过 通信 而 彼此 合作 ， 就 像 当 年 的 集群 计算 服务 平 合 
一 样 。EC2 的 处 理 能 力 可 以 实时 增 减 ， 至 少 可 以 相当 于 一 台 虚 拟 机 的 处 理 能 力 ， 多 至 1000 
人 台 以 上 的 处 理 水 平 。 除 了 可 以 提供 完整 的 计算 资源 外 ，EC2 还 有 一 些 其 他 的 重要 管理 功能 . 

1) 亚马逊 云 监 测 是 一 项 监控 AWS 云 资 源 的 网 络 服务 ， 使 亚马逊 公司 产品 的 用 户 可 以 
了 解 到 资源 使 用 、 操 作 性 能 和 总 体 需 求 状况 ， 包 括 CPU 的 使 用 、 磁 盘 读 写 和 网 络 流量 等 
指标 ; 

2) 目 动 测量 允许 EC2 的 容量 根据 要 求 增 大 、 减 小 ， 保 证 EC2 在 流量 高 峰 时 增 容 以 维持 
其 性 能 ， 在 容量 较 低 时 减 容 以 节约 成 本 ， 此 特性 对 于 使 用 率 波动 频 党 的 程序 来 说 尤其 适用 ; 

3) FRE teva, FES EC2 计算 实例 之 间 分 配 流量 ， 人 允许 程序 出 错 ， 它 能 够 在 资源 池 
中 探测 出 运行 不 正常 的 实例 ， 并 引导 信息 流通 过 正常 实例 进行 ， 直 到 不 正常 实例 被 修复 ,使 
得 用 户 可 以 使 用 云 资 源 来 进行 简单 和 自动 的 监控 、 测 量 和 流量 控制 ， 从 而 帮助 用 户 可 以 更 好 
地 控制 他 们 的 AWS 资源 ， 创 造 出 性 能 更 优 、 弹 性 更 强 、 耗 费 更 低 的 设计 。 

EC2 的 付费 方式 原则 上 是 按照 其 计算 和 所 消耗 的 网 络 资源 收取 ， 但 也 有 和 针对 某 些 特殊 功 
能 的 额外 服务 收费 。 虚 拟 机 的 收费 是 根据 虚拟 机 的 能 力 进行 计算 的 ， 因 此 ， 实 际 上 用 户 租用 
的 是 虚拟 机 的 计算 能 力 。 付 费 方式 则 由 用 户 的 使 用 状况 决定 ， 即 用 户 仅 需要 为 自己 所 使 用 的 
计算 平台 实例 付费 ， 运 行 结 束 后 计 费 也 随 之 结束 。 在 EC2 中 ， 提 供 了 三 种 不 同 能 力 的 虚拟 
机 实例 ， 具 有 不 同 的 收费 价格 。 例 如 ， 据 亚马逊 公司 网 络 服务 网 页 报告 ， 其 中 默认 的 也 是 最 
小 的 运行 实例 是 1.7GB 内 存 1 7 EC2 的 计算 单元 (一 个 虚拟 的 计算 核对 应 的 计算 单元 ) ， 有 具 
有 160GB 的 虚拟 机 内 置 存储 容量 ， 是 一 个 32 位 的 计算 平台 ， 收 费 标准 为 10 美 分 /h。 在 当 
前 的 计算 平台 中 ， 还 有 两 种 性 能 更 加 优异 的 虚拟 机 实例 可 供 使 用 ， 相 应 的 价格 也 更 昂贵 一 
些 。 其 他 的 网 络 资源 (例如 TP 地 址 和 网 络 服务 流量 等 ) 消耗 的 计 费 也 有 相应 的 计 费 原则 。 例 
如 内 部 传输 和 外 部 传输 的 计 费 原则 就 不 同 。 额 外 增值 服务 收费 主要 针对 某 些 特殊 的 功能 服 
务 ， 比 如 亚 马 进 云 监测 和 弹性 负 衙 调节 。 

亚马逊 公司 通过 提供 EC2 ， 把 计算 、 存 储 和 应 用 作为 服务 提供 。 通 过 物理 资源 的 共享 ， 
市 约 了 单一 用 户 的 使 用 成 本 。 通 过 提供 更 多 的 安全 机 制 和 可 徘 性 机 制 ,减少 了 小 规模 软件 开 
发 人 员 对 于 集群 系统 的 维护 ， 并 且 按 使 用 来 收费 的 方式 更 具 成 本 优势 。 同 时 ， 按 用 量 收费 的 
模式 可 以 帮助 扩展 软件 的 销售 通路 ， 例 如 ，ORACLE 和 IBM 公司 就 相继 宣布 用 户 可 以 在 
EC2 中 运行 自己 的 各 项 软件 产品 ， 按 量 收 费 。 

(3) SQS 
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2007 年 7 月 ,亚马逊 公司 推出 了 简单 队列 服务 (SQS) ， 这 项 服务 使 托管 主机 可 以 存储 计 
算 机 之 间 发 送 的 消息 。 通 过 使 用 SQS， 开 发 人 员 可 以 开发 分 布 式 应 用 程序 ， 并 在 它们 中 间 用 
一 种 安全 、 灵 活 和 可 笔 的 方式 通信 ， 而 无 需 考 虑 消息 丢失 的 问题 。 通 过 这 种 服务 方式 解决 消 
县 弄 步 传输 问题 ， 即 使 消息 的 接收 方 还 没有 局 动 也 没有 关系 ， 服 务 内 部 会 缓 仓 ， 而 一 旦 有 消 
县 接收 ， 组 件 被 司 动 运行 ， 队 列 服务 就 将 消息 提交 给 相应 的 运行 模块 进行 处 理 。 此 外 ，SQS 
服务 队列 可 以 被 命名 并 制定 访问 权限 ， 来 决定 谁 有 权 读 / 写 队 列 ， 并 且 提 供 了 内 置 的 功能 3 
避 人 免 死 锁 的 发 生 ， 或 用 来 处 理 当 两 个 接受 者 同 时 访问 相同 消息 的 情况 。 目 前 ， 消 息 只 可 以 是 
文字 ， 并 且 长 度 必 须 小 于 8KB 。 

任何 连 入 互联 网 的 机 融 都 可 以 从 一 个 亚马逊 队列 中 读 取 或 者 发 送 内 容 。 队 列 的 接收 者 可 
以 在 不 同时 间 、 不 同位 置 接收 队列 中 的 数据 。 队 列 必 须 为 这 种 消息 传递 服务 进行 付费 ， 通 篆 
依据 消息 的 个 数 以 及 消息 传递 的 大 小 进行 计算 。 例 如 每 10000 MAW 1 Seah, BE GB 的 数 
据 传 输 从 10 美 分 到 18 美 分 不 等 。 

(4) SDB 

同 S3 专 为 非 结 构 化 的 数据 块 (比如 文件 ) 设 计 不 一 样 ，SDB(Simple DB) 是 一 个 快速 的 可 
伸缩 实时 数据 引擎 和 查询 框架 ， 是 为 复杂 的 结构 化 数据 建立 的 。 基 于 AWS 的 应 用 程序 ， 可 
以 用 它 轻 松 地 存储 和 获取 结构 化 数据 。 它 能 够 与 其 他 AWS 很 好 地 协作 。 跟 其 他 云 计算 一 样 ， 
也 是 内需 根据 使 用 量 为 服务 付费 ， 而 且 还 提供 一 定 的 免费 使 用 量 。 

SDB 数据 库 不 是 像 DB2 或 者 MySQL 那样 的 关系 数据 库 。 按 照 产 品 描述 ，SDB 是 “一 个 
对 结构 化 数据 实时 查询 的 Web IRS”, SDB 是 使 用 轻 量 级 并 且 很 容易 掌握 的 查询 语言 实现 的 
数据 库 ， 但 它 支 持 大 部 分 可 以 能 会 需要 的 数据 库 操 作 ( 查询 获取 、 插 入 和 删 际 等 )， 并 且 很 
容易 增长 。 例 如 ， 拥 有 的 域 可 高 达 100 个 ， 每 个 域 中 又 可 以 成 长 到 10GB 和 安置 多 达 2.5 亿 
个 属性 。 而 且 不 必 担 心 数 据 会 随 着 数据 库 的 增长 而 分 布 到 多 个 磁盘 上 去 。 此 外 ，SDB 为 文 
Ae “SEIN” (PREFS) 查询 特性 ， 专 门 优化 了 设计 。 例 如 ， 为 确保 快速 查询 响应 ， 当 数据 
项 被 放置 在 数据 库 中 时 ， 所 有 属性 将 目 动 索 引 编号 。 

3. 微软 (Microsoft) 公司 

微软 公司 是 目前 全 球 最 大 的 计算 机 软件 提供 商 。 在 云 计 算 已 经 成 为 全 球 IT 产业 共同 应 
和 的 、 主 流 的 声音 时 ， 微 软 公 司 也 走 在 了 时 代 的 前 治 。 经 过 多 年 的 积 旋 和 持续 探索 ， 微 软 公 
司 正式 发 布 了 一 些 列 称 为 S+S( 软 件 + 服 务 ) 的 云 计算 产品 和 服务 。 

下 面 将 主要 介绍 微软 公司 的 公共 云 服 务 Windows Azure 和 Microsoft Live, 

(1) Windows Azure 

2008 年 ， 在 微软 公司 开发 者 大 会 上 ,微软 公司 发 布 了 一 个 全 新 的 云 计算 平台 
Services Platform ( www. azure. com) 。 这 是 一 个 基于 微软 公司 数据 中 心 的 PaaS 平台 ( 见 图 1-3) ; 
提供 了 一 个 在 线 的 基于 Windows 操作 系统 系列 产品 的 开发 、 存 储 和 服务 代 管 等 服务 的 环境 。 
微软 公司 的 Azure 平台 直接 瞄准 微软 公司 产品 开发 人 员 ， 对 于 每 天 使 用 C# 和 SQL Server 的 人 
AE DUE RU], Azure 根据 用 量 定价 ， 使 用 Azure 服务 越 多 ， 价 格 越 高 。Azure 可 以 根据 计算 
时 间 (CPU 使 用 ) 、 宽 带 ( 包 括 进 和 出 ) 和 存储 计 费 ， 也 可 以 根据 事务 (例如 GET 和 PUT) 
收费 。 

Azure 的 底层 是 数据 中 心中 数量 庞大 的 64 位 Windows Ht 4$ 2$, Windows Azure 通过 底层 
HS PARES all 48 Fabric Controller, VMware 的 Virtual Center 有 着 十 分 相似 的 功能 ) 将 这 些 服 
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图 1-3 ”微软 公司 Azure 平台 示意 
务 项 有效 地 组 织 起 来 ， 给 前 闯 的 应 用 提供 计算 和 存储 能 力 ， 并 保证 其 可 知性 。 它 可 以 看 作 一 
个 在 线 的 操作 系统 环境 ， 统 治 了 整个 数据 中 心 的 运算 资源 ， 用 户 可 以 很 方便 地 调用 这 些 资 
源 ， 来 执行 各 种 应 用 程序 。 此 外 ， 操 作 系 统 升级 、 维 护 等 也 可 以 在 系统 不 宕 机 的 情况 下 目 动 
完成 。 

同时 ， 微 软 公 司 还 提供 了 一 套 基 于 Visual Studio 的 Azure 工具 ， 可 供 开 发 者 在 计算 机 
上 上 开发、 模拟 和 测试 Azure 平台 上 的 应 用 程序 。 通 过 Azure 工具 的 发 布 按钮 , 开发 者 能 将 
ASP. NET 等 应 用 程序 直接 部 闭 到 Azure 平台 上 。 这 样 ， 开 发 人 员 束 能 够 缩短 开发 时 间 ， 
降低 成 本 ， 并 在 熟悉 的 Windows 操作 系统 开发 环境 及 统一 的 变 成 模型 基础 上 衍生 出 新 的 
应 用 和 服务 。 

Azure 平台 目前 推出 了 五 项 托管 服务 ， 包 括 .NET 应 用 服务 、SQL 服务 、SharePoint 服 
务 、Dynamics CRM 服务 以 及 Live 服务 等 ， 用 以 帮助 客户 建立 云 计 算 的 应 用 ， 或 将 现 有 的 业 
务 拓展 到 云端 。 

1) .NET 服务 : 最 初 被 命名 为 BizTalk 服务 ， 它 由 访问 控制 、 服 务 总 线 和 工作 流 三 个 模 
块 组 成 。. NET 服务 提供 了 一 个 基础 架构 ， 使 用 户 可 以 不 必 一 忆 一 表 开 发 重复 的 功能 和 基础 
设施 来 构建 基于 互联 网 的 分 布 应 用 ， 就 可 以 初步 实现 互联 网 服务 总 线 的 一 些 功能 。 

2) SQL 服务 : 是 一 个 云 计 算 平台 的 数据 库 ， 构 建 在 企业 级 的 SQL Server 数据 库 和 Win- 
dows lit rds E, SQL 服务 提供 了 一 系列 丰富 的 集成 服务 ， 可 以 对 数据 进行 查询 、 搜 索 、 
同步 、 报 告 和 分 析 之 类 的 操作 。 数 据 可 以 存储 在 各 种 设备 上 ， 从 数据 中 心 最 大 的 服务 从 一 耻 
到 时 面 计算 机 和 移动 设备 ， 用 户 可 以 控制 数据 而 不 用 省 数据 存储 在 哪里 。 为 外 ，SQL 服务 可 
以 为 应 用 程序 提供 较 高 级 别 的 安全 性 、 可 徘 性 和 伸缩 性 ， 减 少 定理 和 开发 应 用 程序 的 时 间 和 
BAS 

3) SharePoint 服务 : 提供 协作 服务 。 通 过 使 用 协作 特性 ， 企 业内 的 用 户 可 以 轻松 创建 、 
管理 和 构建 他 们 的 协作 Web 站 点 ， 并 让 这 些 站 点 为 整个 企业 所 利用 ， 通 过 这 种 协作 和 快速 
开发 的 服务 建立 更 强 的 客户 关系 。 
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4) Dynamics CRM 服务 : 是 一 个 完全 集成 的 客户 关系 管理 系统 ， 提 供 类 似 Salesforce 的 
应 用 级 服务 。 通 过 该 服务 ， 用 户 可 以 从 第 一 次 接触 客户 开始 ， 在 整个 购买 和 售后 流程 中 创建 
并 维护 清晰 、 明 了 的 客户 数据 ; 可 以 强化 和 改进 公司 的 销售 、 和 过 销 和 服务 流程 ， 提 供 快 速 、 
灵活 且 经 济 、 实 惠 的 解决 方案 ; 还 可 以 帮助 用 户 在 日 党 业务 处 理 过 程 中 获得 持续 和 显著 的 
改进 。 

5) Live 服务 : 以 用 户 为 中 心 ， 提 供 诸如 联系 人 信息 、 博 客 和 图 所 等 服务 。 微 软 公 司 将 
Windows Live 的 很 多 功能 和 资源 ， 通 过 Live 服务 封装 以 后 提供 给 软件 广 商 和 开发 人 员 使 用 。 
通过 Live 服务 ， 可 以 存储 和 管理 Windows Live 用 户 的 信息 和 联系 人 , 将 Live Mesh 中 的 文件 
和 应 用 同步 到 用 户 的 不 同 设备 上 去 。 

(2) Microsoft Live 

Microsoft Live 是 微软 公司 推出 的 网 格 托管 的 云 应 用 服务 ， 主 要 包括 Office Live 和 Win- 
dows Live 两 个 系列 的 产品 ， 下 面 将 分 别 加 以 介绍 。 

1) Office Live, Office Live 为 小 型 企业 和 信息 工作 者 提供 了 一 组 新 的 基于 互联 网 的 软件 
服务 ， 可 以 帮助 他 们 建立 、 扩 展 和 管理 其 在 线 业 务 。 这 些 用 户 可 以 通过 Web 设计 、 咨 询 服 
务 和 Office Live 服务 来 获得 新 的 收入 来 源 。 

Office Live 的 服务 主要 如 下 : 

(D Office Web Apps: 是 一 组 Web 版 的 Office 应 用 ， 它 包括 Web 版 的 Word, Excel, Pow- 
erPoint 和 One Note。 任 何 用 户 通 过 浏览 融 无 需 安装 任何 客户 端 软 件 即 可 使 用 这 些 Office 应 
用 ， 同 时 还 可 以 共 且 文件 ， 与 其 他 人 协作 。Office WebApps 不 仅 可 以 通过 微软 公司 的 在 线 服 
务 提 供 ， 比 如 Hotmail, Docs. com 等 ， 也 可 以 通过 SharePoint 软件 运行 于 私有 云 上 。 

D Office 365: 它 免费 提供 最 基本 的 服务 项 目 ， 并 同时 提供 付费 的 升级 服务 项 目 ， 包 括 
更 大 的 在 线 空间 /存储 容量 、Store Manager 以 及 免费 的 广告 管理 工具 来 直接 管理 通过 微软 公 
H] adCenter 注册 的 广告 等 。 

(3) Office Live Add - in: 能 够 将 Office 客户 端 与 Office Live 整合 起 来 ， 利用 Microsoft Of- 
fice 强大 的 本 地 处 理 能 力 以 及 Office Live 提供 的 在 线 服务 ,在 本 地 用 Microsoft Office 打开 、 
编辑 和 保存 Office Live 上 的 文档 。 目 前 Office Live Add -in 支持 Word, Excel 和 PowerPoint, 

2) Windows Live, Windows Live 是 微软 公司 推出 的 一 项 即时 沟通 工具 ， 也 提供 照片 、 空 
由 和 邮件 等 在 线 服务 。 闭 名 的 Windows Live Messenger( 以 前 叫 MSN) 就 是 Windows Live 中 的 
一 个 产品 。Windows Live 可 以 与 包括 Office Live Workspace 和 Office Live Small Business 在 内 
的 Office Live 合并 成 一 套 服 务 ， 并 有 一 个 统一 的 门户 提供 给 用 户 。 

4. Salesforce 公司 

成 立 于 1999 年 的 Salesforce 公司 ， 是 全 球 按 需 ( 按 需 应 用 、 按 需 付 费 ) 客户 关系 管理 
(CRM) 解决 方案 的 云 平 台 提 供 商 ， 也 是 云 计算 的 积极 倡导 者 之 一 。 目 前 ， 其 在 全 球 的 CRM 
付费 企业 用 户 数 达到 64. 4 万 。 下 面 我 们 将 简单 介绍 Salesforce 公司 的 CRM 云 计算 服务 和 用 
于 扩展 的 Force. com 4 (ILA 1-4) , 

(1) Salesforce. com CRM 

Fe PE TE iT f8] 8. P9] v e Hs My. Pr HEURE FE BJ ee AE ELA BJ RA, Salesforce 针对 中 小 企业 推出 
了 基于 互联 网 的 CRM 服务 (www. salesforce. com), JF EE T — PPI AI AXE HB. 通过 互联 
网 使 用 企业 应 用 软件 。Salesforce. com CRM 作为 基于 云 计 算 模 式 的 CRM， 除 了 提供 定制 灵活 
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Salesforce Apps 
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Cloud; Cloud; Celicboroton Cle Custom Cloud 


基础 染 构 


图 1-4 Force. com 平台 

的 客户 管理 和 销售 管理 功能 ， 也 充分 利用 了 云 计 算 模 式 的 特性 ， 多 租户 使 用 模型 、 灵 活 付 费 
模式 ,以 及 容量 弹性 伸缩 。 用 户 可 以 在 线 开 发 、 配 置 、 运 行 和 监控 CRM 系统 ; Sales- 
force. com 的 云 平台 则 负责 根据 负载 对 服务 进行 资源 调整 。 

(2) Force. com 

Force. com 是 Salesforce 公司 基于 PaaS 的 公共 云 计算 服务 。 利 用 这 个 平台 ， 可 以 人 简单 地 
构建 、 购 买 和 运行 业务 应 用 程序 ， 进 一 步 将 计算 资源 抽象 得 更 加 贴近 业务 。Force. com 可 以 
运行 企业 资源 规划 (ERP) 、 人 力 资 源 、 供 应 链 、 资 产 跟 躁 、 合 同 管理 以 及 日 定义 应 用 程序 。 

Force. com 包括 一 组 集成 的 工具 盒 应 用 程序 服务 ，ISV 和 公司 IT 部 门 可 以 使 用 它 构 建 业 
务 应 用 程序 , 并 在 提供 Salesforce. com CRM 应 用 程序 的 相同 基础 架构 上 运行 该 业务 应 用 程 
序 ， 包 括 需要 构建 企业 管理 应 用 的 相关 内 容 ， 而 且 在 单 
包装 中 运行 应 用 程序 。 它 包括 数据 库 、 集 成、 vs. Salesforce.com 
辑 、 报 表 、 用 户 界 面 以 及 移动 服务 ， 这 些 都 通过 云 服 务 
在 Salesforce 的 多 租户 平台 上 运行 ， 可 避免 在 复杂 的 服 
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Force. com 的 主要 模块 。 User Interface as a Service 
虚拟 化 扩 术 是 伴随 春 计 算 机 的 出 现 而 产生 和 发 展 
的 ， 虚 拟 化 意味 着 对 计算 机 资源 的 抽象 。 在 云 计算 概念 
如 出 后 ， 虚 拟 化 技术 可 以 用 来 对 数据 中 心 的 各 种 资源 进 
行 虚拟 化 和 管理 ， 在 物理 服务 器 上 虚拟 出 多 个 操作 系统 
和 应 用 程序 ， 以 便 更 好 地 利用 计算 资源 。 因 此 虚拟 化 技 
术 已 经 成 为 构建 云 计算 环境 的 一 项 关键 技术 。 作 为 X86 ”图 1-5 FAI Force. com 的 主要 标志 
体系 结构 虚拟 化 技术 的 代表 ，VMware 公司 基于 已 有 的 虚拟 化 技术 优势 ， 面 癌 云 计算 推出 了 
一 系列 解决 方案 和 新 的 技术 ,尤其 是 其 推出 的 面 回 服务 副 的 虚拟 机 产品 vSphere， 号 称 云 计 
算 的 自 丈 操 作 系 统 。 
VMware 公司 云 计算 战略 : VMware 公司 基于 已 有 的 虚拟 化 技术 和 优势 ， 提 供 了 云 基 础 染 
构 及 管理 、 云 应 用 平台 和 终端 用 户 计算 等 多 个 层次 上 的 解决 方案 ， 主 要 文 持 企 业 级 组 织 机 构 
利用 服务 硕 虚 拟 化 技术 ， 实 现 从 目前 的 数据 中 心 癌 云 计算 环境 转变 。 这 里 根据 VMware 云 计 
算 解 决 方案 的 三 层 架 构 简 要 介绍 VMware 面 回 云 计 算 的 产品 和 技术 ， 如 图 1-6 所 示 。 
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VMware 公司 云 战 略 三 层 架 构 如 下 : 

1) 云 基础 架构 及 管理 层 (IaaSs) : 云 基础 架 
构 及 管理 层 由 数据 中 心 与 云 基础 架构 、 安 全 产 
品 、 基 础 架构 和 运营 管理 三 大 部 分 组 成 。 数 据 中 
心 和 基础 架构 是 VMware 公司 云 计算 解决 方案 的 


基石 。 在 这 一 层 VMware 公司 的 主要 思路 是 通过 | 
虚拟 化 技术 将 数据 中 心 转变 为 云 计算 基础 架构 ， P ee Director 
然后 通过 VMware 虚拟 化 提供 自助 部 署 和 调配 的 
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Zimbra, Print Fusion, VMware Player 
SpringSource 
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IaaS 





功能 ,企业 可 以 创建 私有 云 ， 将 IT 基础 架构 作 
为 服务 来 交付 使 用 。 面 向 TaaS 层 的 主要 产品 包 — 

fi VMware vSphere 系列 和 VMware Server 系列 ， 

后 者 为 免费 版 本 ， 性 能 不 如 vSphere。 
ware 公司 通过 收购 SpringSource 来 构建 基于 云 的 

应 用 开发 平台 ， 用 于 满足 用 户 在 云 计算 模式 与 环 图 1-6 VMware 云 计算 三 层 染 构 

境 下 开发 相应 的 应 用 。SpringSource 框 染 能 通过 动态 、 一 至 的 基础 染 构 满足 各 种 企业 和 Web 
应 用 的 和 需要， 以 及 人 简化 新 应 用 程序 开发 的 开发 者 工具 和 功能 。 因 此 ，VMware 公司 的 云 应 用 
平台 以 SpringSource 应 用 和 VMware vSphere 为 基础 ， 采 用 高 级 消息 队列 协议 (AMQOP) ， 具 有 
无 颖 扩展 的 弹性 数据 管理 技术 和 蜂 物 理 / 虚 拟 环境 可 见 性 的 性 能 监控 和 应 用 管理 机 制 ， 并 能 
实现 私有 云 和 公有 云 之 间 的 迁移 。 

3) 终端 用 户 计算 解决 方案 : 果 面 虚拟 化 产品 。 

在 SaaS Je, VMware 公司 的 定位 还 不 是 特别 明确 ， 主 要 是 基于 时 面 和 应 用 程序 虚拟 化 ， 
提供 f VMware ThinApp, VMware Workstation, VMware Fusion, Zimbra, VMware Player, 
VMware 移动 虚拟 平台 (MVP) 及 VMware ACE 等 产品 。 

VMware 的 云 计算 解决 方案 的 重点 在 于 对 数据 中 心 等 基础 织 构 的 虚拟 化 ， 因 此 在 TaaS 层 
上 VMware 的 工作 较 多 ， 所 以 这 里 重点 介绍 VMware vSphere 结构 、vCloud Service Director 和 
VMware View, 

1) VMware vSphere 3244, VMware 公司 在 原来 的 VMware Infrastructure 3( 以 下 人 简称 VIS) 
基础 上 推出 的 VMware vSphere 被 称 为 业界 首 球 云 计算 操作 系统 。VMware vSphere 主要 包括 两 
个 部 分 : 一 是 虚拟 化 管理 大 VMM 部 分 ， 即 VMware ESX 4; 二 是 用 于 整合 和 管理 VMM 的 
VMware vCenter。 其 架构 如 图 1-7 所 示 。 








2) 云 应 用 平台 层 (PaaS): TE PaaS 层 ，VM- 




















ESX 





图 1-7 VMware vSphere 架构 
虚拟 化 从 结构 上 可 以 分 为 寄居 架构 和 裸 金属 (Bare Metal) 架构: 寄居 架构 指 的 是 在 操作 
系统 的 层面 上 进行 虚拟 机 实现 ，VMware 公司 开发 的 VMware Workstation 系列 就 属于 寄居 架 
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构 ; 禄 金属 染 构 是 在 计算 机 便 件 上 和 卫 接 进行 虚拟 化 ， 是 架构 在 计算 机 人 鲁 件 和 操作 系统 之 间 的 
虚拟 化 。 通 过 裸 金 属 染 构 的 虚拟 化 ， 计 算 机 便 件 卫 接 被 切割 成 奢 干 个 虚拟 机 ， 然 后 在 这 些 虚 
拟 机 上 再 进行 各 目的 系统 和 应 用 程序 的 安 容 。 这 样 一 来 ， 虚 拟 机 的 的 层 是 虚拟 出 来 的 CPU, 
内 存 等 计算 机 便 件 资源 ， 而 不 是 操作 系统 ， 虚 拟 机 之 间 完 全 独立 。 

vSphere 的 底层 就 是 VMware 公司 推出 的 虚拟 机 ESX Server。 通 过 ESX 虚拟 化 数据 中 心服 
务 人 各 ， 将 数据 中 心 转换 为 云 计 算 基 础 架构 ,满足 全 组 织 利 用 内 部 和 外 部 资源 、 低 成 本 地 提 
供 云 服务 的 能 力 。ESX Serve JB T UR aJ 2T HJ RE UBL, ESX Serve HIR RETE oS tit HEF 
上 ， 在 人 硬件 和 操作 系统 之 间 插 入 了 一 个 稳固 的 虚拟 化 层 。ESX Serve 讲 一 个 物理 服务 硕 划 分 
为 多 个 安全 、 可 移植 的 虚拟 机 ， 这 些 虚 拟 机 在 同一 个 物理 机 服务 硕 上 运行 。 每 个 虚拟 机 都 呈 
现 为 一 个 完成 的 系统 (具有 处 理 天 内存 .网络 .存储 从 和 BIOS), AE Windows, Linux, So- 
laris 和 NetWare 操作 系统 和 软件 应 用 程序 都 可 以 在 虚拟 机 中 运行 ， 无 需 进行 任何 修改 。 

ESX Serve 是 回 IT 环境 提供 虚拟 化 的 分 布 式 服务 的 基础 。ESX Server 最 新 的 版 本 是 VM- 
ware ESX 4, ， 和 之 前 的 VMware ESX 3.5/3 相 比 ， 在 功能 和 特点 上 有 很 多 更 新 和 扩展 ， 其 中 
最 大 的 区 别 在 于 VMware ESX 4 只 文 持 64bit 运行 模式 ， 只 能 安装 在 文 持 64 位 计算 的 X86 物 
理 服 务 大 上 上。 除了 ESX Server, VMware 公司 还 推出 了 精简 版 的 ESXi Server, ESXi Server 与 
ESX Server 的 最 大 区 别 在 于 ESXi Server 去 除了 Service Console, 

VMware ESX 4 主要 功能 体现 在 如 下 三 个 方面 : 

(D 基础 架构 服务 : 即 虚 拟 化 管理 器 (VMM ) 功能 ， 是 整个 产品 的 基础 。 通 过 在 物理 机 上 
的 虚拟 层 可 以 抽象 处 理 术 、 内 存 和 LO 等 资源 来 运行 多 个 虚拟 机 。 虚 拟 机 能 文 持 高 达 8 个 虚 
拟 CPU 和 256GB 内 存 ; 还 支持 热 添 加 功能 ， 可 以 热 添 加 虚拟 CPU 、 内 存 和 网 络 设备 ， 满 足 
应 用 程序 无 颖 扩展 的 功能 。 

D 增强 型 的 基础 架构 服务 : 在 基础 架构 服务 外 ，VMware ESX 4 还 提供 了 能 增强 网 络 和 
存储 LO 性 能 的 VMDirectPath、 能 减少 存储 空间 使 用 的 VSorage Thin Provisioning 和 Linked 
Clone 等 增强 的 功能 。 

3) 应 用 程序 服务 : VMware ESX 4 提供 了 vCenter Agent, HH T I8] vCenter 上 传 本 机 的 管理 
和 性 能 信息 ， 根 据 vCenter 的 指示 协助 vMotion, 

云 管理 平台 vCenter: vCenter 作为 管理 节点 控制 和 整合 属于 其 域 的 vSphere EAL, Bn 
以 安装 在 物理 机 的 操作 系统 上 ， 也 可 以 安装 在 虚拟 机 的 操作 系统 上 (官方 推荐 )。 从 实现 方 
式 上 看 ， 它 是 基于 Java 技术 的 ， 后 台 连 接 目 市 的 微软 公司 SQL Server Express, tH, aJ E H 
Oracle 数据 库 ， 并 可 以 使 用 其 “链接 模式 ”集成 多 个 vCenter 文 持 大 量 用 户 的 访问 。 在 通信 
方面 ， 它 通过 vSphere 主机 内 部 目 市 vCenter Server Agent 与 ESX Server 进行 联系 ， 并 提供 
API 供 外 部 程序 和 vCenter 客户 问 调 用 。 在 扩展 方面 ， 它 文 持 很 多 第 三 方 的 插件 。 

vCenter 包括 以 下 六 项 基本 功能 : 

D 资源 和 虚拟 机 的 清单 管理 。 该 功能 可 以 列 出 和 管理 vCenter 管理 域内 所 有 的 资源 ( 如 
存储 网络 CPU 和 内 存 等 ) 和 虚拟 机 。 

D 任务 调度 。 文 持 定时 任务 或 者 及 时 任务 (如 vMotion) ， 满 足 各 个 任务 之 间 不 出 现 抢占 
资源 或 者 冲突 的 要 求 。 

(3) 日 志 管 理 。 用 于 记录 任务 和 事件 的 日 志 。 

up 警告 和 事件 管理 。 使 用 户 可 以 及 时 获知 系统 出 现 的 新 情况 。 
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(5) 虚拟 机 部 署 。 通 过 部 署 回 导 ， 上 传 vApp 和 虚拟 磁盘 等 ， 部 署 虚 拟 机 。 

© 主机 和 虚拟 机 的 设置 。 用 户 可 以 修改 一 些 主机 和 虚拟 机 的 主要 配置 ， 而 且 还 能 对 那 
些 非 党 底层 的 特性 进行 设置 ， 比 如 是 否 开 局 人 硬件 辅助 虚拟 化 。 

vCenter 还 有 以 下 七 个 方面 的 高 级 功能 : 

D 动态 迁移 vSphere 提供 了 vMotion 和 Storage vMotion 技术 ， 分 别 满足 虚拟 机 和 虚拟 磁 
盘 的 热 迁移 。 

D 资源 优化 。VMware 公司 的 分 布 式 资源 调度 ( Distributed Resource Scheduler, DRS ) 4x 
术 ， 通 过 将 虚拟 机 从 资源 紧张 的 主机 迁移 到 资源 剩余 的 主机 等 方式 来 实现 资源 优化 ， 使 得 每 
个 虚拟 机 都 能 找到 合适 的 位 置 。 

(3) 安全 方面 。VMware 公司 推出 两 大 虚拟 机 安全 技术 : 一 是 推出 VMware API， 对 虚拟 
机 进行 安全 扫描 检测 病毒 和 恶意 软件 ;二 是 推出 VMware Shield Zones ， 主 要 起 到 防火 墙 的 作 
用 ， 可 监视 、 记 录 和 组 织 vSphere 主机 内 部 或 集群 中 主机 之 间 和 虚拟 机 之 前 的 流量 。 

O 容错 。VMware Fault Tolerance 是 VMware 提供 的 虚拟 机 容 灾 技术 。 

(5) 高 可 用 性 。VMware High Availability 技术 通过 心跳 机 制 来 检测 虚拟 机 的 运行 状态 ， 并 
通过 在 其 他 主机 上 重启 无 啊 应 的 虚拟 机 的 方式 来 保障 系统 的 可 用 性 。 

© 备份 。VMware 采用 了 加 固 备 份 技术 (VMware Consolidated Backup,VMCB)， 在 没有 
he Agent 时 对 多 个 虚拟 机 进行 集中 备份 。 

OD 应 用 部 署 。VMware vApp 基于 开放 式 虚 拟 化 格式 ( Open Virtualization Format, OVF) B 
议 ， 将 应 用 程序 转化 为 自 描述 和 自 管理 型 实体 ， 以 方便 部 署 和 降低 管理 开支 。 

2) 底层 架构 服务 vCloud Service Director, vSphere 的 主要 目的 是 将 底层 物理 资源 进行 虚 
拟 和 管理 ， 但 仪 安装 了 vSphere 的 数据 中 心 并 不 能 称 之 为 云 平台 。VMware 公司 通过 vCloud 
Service Director, TE vSphere 架构 上 利用 一 系列 虚拟 技术 ， 提 供 连 接 企 业 虚 拟 环 境 与 私有 云 的 
接口 和 有 目 动 化 管理 工具 ,通过 运行 vCloud Express 与 外 部 服务 而 无 颖 地 连接 ， 癌 外 提供 云 
IaaS 服务 。vCloud Service Director 使 IT 部 门 能 够 通过 基于 Web 的 门户 回 用 户 开放 虚拟 数据 
中 心 ， 并 定义 和 开放 能 部 午 在 虚拟 数据 中 心 的 全 服务 日 录 。 

vCloud Service Director 早期 被 称 为 Redwood 项 目 ， 目 前 该 产品 的 资料 VMware 公司 回 外 
公布 得 不 多 。vCloud Service Director 的 架构 如 网 1-8 所 示 ， 它 具有 数据 库 与 管理 资源 池 的 服 
务 总 线 通 信 的 功能 。 另 外 ， 利 用 基于 VMware vCloud Service Director 提供 云 服 务 的 VMware ZS 
司 服务 提供 商 体 系 ， 可 以 将 数据 中 心 容 量 扩展 到 安全 、 兼 容 的 公共 云 中 ， 并 像 管理 企业 的 私 
有 云 一 样 方便 地 管理 。 利 用 基于 策略 的 用 户 控制 技术 和 VMware vShield 安全 技术 ， 保 持 多 租 
户 环境 的 安全 性 和 可 控 性 。 以 虚拟 数据 中 心 的 形式 回 内 部 组 织 高 效 地 提供 资源 ， 提 高 整合 率 
并 简化 管理 ， 降 低 成 本 。 以 渐进 方式 实现 云 计算 ， 利用 现 有 投资 和 开放 标准 ， 以 保证 云 之 间 
的 互 操 作 性 和 应 用 程序 的 可 移植 性 。 

3) wea Se y= hh VMware View, VMware View 是 VMware 公司 的 日 面 虚拟 化 产品 ， 通 过 
VMware View 能 够 在 一 人 台 普 通 的 物理 服务 大 上 虚拟 出 很 多 台 虚 拟 葛 面 ( Virtual Desktop ) 供 远 
3] P fH 

VMware View 的 主要 部 件 包 括 : 

(D View Connection Server: View ERRIA, View ZI mM CEt View 代理 ， 将 接 
收 的 远程 更 面 用 户 请 求 重 定 回 到 相应 的 虚拟 果 面 、 物 理 日 面 或 终端 服务 需 。 
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vCloud Service Director 


虚拟 数据 中 心 虚拟 数据 中 心 
(Silver) 





图 1-8  vCloud Service Director 的 架构 

(2 View Manager Security Server; View 安全 连接 服务 器， 是 可 选 组 件 。 

(3) View Administrator Interface. View 管理 接口 程序 ， 用 于 配置 View Connection Server, 
部 署 和 管理 虚拟 时 面 、 控 制 用 户 吴 份 验证 。 

(4) View 代理 : View 代理 程序 ， 安 装 在 虚拟 桌面 依托 的 虚拟 机 、 物 理 机 或 终端 服务 需 
上 ， 安 装 后 提供 服务 ， 可 由 View Manager Server 管理 。 该 代理 具备 多 种 功能 ， 如 打印 、 远 程 
USB 运行 和 单 点 登录 。 因 为 在 VMware vSphere Server 提供 的 虚拟 机 不 包括 声卡 、USB 接口 文 
FESS, DAMME, AAT WORF VMware vSphere Server 提供 的 虚拟 机 连接 到 View Client 计 
算 机 的 相应 设备 上 并 显示 、 应 用 在 客户 端 。 

© View Client; View 客户 端 程序 ， 安 装 在 需要 使 用 “虚拟 桌面 ”的 计算 机 上 通过 它 可 
以 与 View Connection Server 通信 ， 从 而 允许 用 户 连接 到 虚拟 蝎 面 。 

©) View Client with Offline Desktop: 也 是 View 客户 端 程序 ， 但 该 软件 文 持 View FALSE 
面 ， 可 以 让 用 户 “ 下 和 载 ” vSphere Server 中 的 虚拟 机 到 “本 地 ”运行 。 

(D View Composer: 安装 在 vCenter Server 上 的 软件 服务 ， 可 以 通过 View Manager 使 用 
“克隆 链接 ”的 虚拟 机 ， 这 是 View 4 提供 的 新 功能 ， 在 以 前 的 View 3 版 本 中 ， 每 个 虚拟 机 
时 面 乔 能 使 用 一 个 独立 的 虚拟 机 ， 而 添加 该 组 件 后 ， 可 以 让 虚拟 果 面 使 用 “元 隆 链 接 ” 的 
虚拟 机 ， 这 不 仅 提高 了 部 署 虚拟 更 面 的 速度 ， 也 减少 了 vSphere 的 空间 占用 。 


1.6 开源 云 计 算 系 统 概述 


H Hadoop, Eucalyptus 这 两 种 典型 的 开源 云 计算 系统 问世 后 ， 利 用 这 些 开 源 项 目 提供 的 
各 种 工具 ， 研 究 者 可 以 在 实验 室 用 很 低 的 成 本 ， 在 由 普通 机 融 构 成 的 集群 系统 中 模拟 出 近似 
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商业 云 的 环境 ， 这 也 掀起 了 开源 云 计算 系统 研究 的 热 溯 ， 本 方 将 介绍 一 些 其 他 新 兴 的 开源 云 
计算 系统 ， 市 领 谈 者 进入 多 姿 多 彩 的 开源 云 计算 世界 。 

本 贡 对 一 些 开 源 云 计算 系统 作 概 念 性 介绍 ， 重 点 介绍 Cassandra, Hive 和 VoltDB 等 开源 
云 计 算 系 统 。 

]. Cassandra 

Cassandra z&— £i FEAT Je, RA, SEZ THER REL. EZ I Dy- 
namo 的 分 布 技术 和 谷歌 公司 的 BigTable 数据 模型 ， 更 好 地 满足 了 海量 数据 存储 的 需求 ， 解 
决 了 应 用 与 关系 数据 库 之 间 存 在 的 非 依赖 和 关系。 同时 ，Cassandra 变更 垂直 扩展 为 水 平 扩展 ， 
相 比 其 他 上 典型 的 键 值 数据 存储 模型 ，Cassandra 提供 了 更 为 丰富 的 功能 。 

Cassandra 最 初 由 Avinash Lakshman ( MV. 3h n] Dynamo 的 作者 之 一 ) 和 Prashant Malik 
(Facebook 公司 工程 师 ) 在 Facebook 公司 设计 开发 ，2008 年 Facebook 把 它 贡 献 给 了 开源 社 
区 ， 从 某 种 程度 上 来 说 ， 可 以 把 Cassandra 看 成 是 Dynamo 的 升级 版 本 2.0， 或 者 是 Dynamo 
与 BigTable 的 集合 。Cassandra 的 设计 目标 如 下 : 

1) 高 可 用 性 ， 

2) 最 终 一 致 性 ; 

3) 动态 可 伸缩 ; 

4) 可 以 动态 调整 一 致 性 /持久 性 与 延 时 ; 

5) 点 管理 要 保持 低 开 销 ; 

6) 最 小 化 管理 开销 。 

考虑 到 Cassandra 的 设计 目标 ， 在 一 致 性 、 可 用 性 和 分 区 容忍 度 (CAP 理论 ) 的 折 中 问题 
E, Cassandra 选择 了 AP( 即 可 用 性 和 分 区 容忍 度 ) 。 针 对 基本 的 一 致 性 喻 希 分 布 不 均匀 且 不 
能 根据 节点 能 力 强 昼 分 配 的 缺点 ， Dynamo 让 每 个 点 管理 环 中 的 多 个 位 置 ， 而 Cassandra ik ft 
载 轻 的 市 点 在 环 上 移动 来 实现 负载 均衡 。 在 应 用 中 ，Cassandra 表现 出 了 以 下 六 个 突出 的 
特点 : 

1) 模式 灵活 。 使 用 Cassandra 就 像 文档 存储 ， 可 以 在 系统 运行 时 随 蕊 地 添加 或 者 移 除 
字段 。 而 不 必 提 前 去 解决 记录 中 的 字段 。 特 别 是 在 大 型 部 署 上 将 极 大 地 提升 效 认 。 

2) 真正 的 可 扩展 性 。Cassandra 是 纯粹 意义 上 的 水 平 扩展 。 为 给 集群 添加 更 多 容量 ， 可 
以 动态 添加 节点 而 不 必 重 局 任何 进程 、 改 变 应 用 查询 或 手动 迁移 任何 数据 。 

3) 多 数据 中 心 识别 。 通 过 调整 节点 的 布局 避免 某 一 个 数据 中 心 出 现 放 隐 ， 一 个 备用 的 
数据 中 心 将 至 少 有 每 条 记录 的 完全 复制 。 

4) 范围 查询 。 可 以 设置 键 的 范围 来 进行 键 信 查询 。 

5) 列表 数据 结构 。 在 混合 模式 可 以 将 超级 列 添加 到 五 维 ， 这 使 得 每 个 用 户 索 引 将 变 得 
非常 方便 。 

6) 分 布 式 写 操 作 。 可 以 在 任何 地 方 、 任 何 时 间 集 中 读 或 者 写 任何 数据 ， 并 且 不 会 有 任 
何 单 点 失败 。 

当前 ，Cassandra 系统 正在 得 到 迅 独 发 展 ， 社 交 网 站 巨头 Facebook 公司 采用 Cassandra 7 
fifi Inbox, Twitter, WebEx 和 Digg 公司 也 做 了 大 量 向 Cassandra 的 迁移 工作 。 

2. Hive 

Hive 起 源 于 Facebook 公司 ， 是 一 个 基于 Hadoop 的 数据 仓库 工具 ， 同 时 也 是 Hadoop 的 
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一 个 主要 子 项 目 。Hive 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 的 提取 、 转 换 盒 加 载 
(ETL), ， 同 时 可 以 实现 对 Hadoop 中 大 规模 数据 的 存储 、 查 询 和 分 析 。Hive 定义 了 一 种 简单 
的 类 似 SQL——HiveQL, HiveQL 使 熟悉 SQL 的 用 户 可 以 方便 地 在 Hadoop 中 查询 数据 。 同 时 
Hive 还 有 很 强 的 灵活 性 ， 没 有 将 用 户 限 制 在 一 个 框架 中 ， 主 要 表现 在 当 Hive 内 建 的 Mapper 
和 Reducer 不 能 满足 用 户 的 需求 时 ， 用 户 可 以 通过 Map/Reduce 将 目 己 开发 的 Mapper 和 Re- 
ducer 加 入 到 Hive， 以 满足 用 户 特 丈 的 需求 。 

Hive 没有 定义 所 谓 的 Hive 格式 的 数据 ， 可 以 在 Thift EIRE TCE, MIT, E 
可 以 目 己 定义 效 据 格式 。 

作为 Hadoop 的 主要 子 项 目 ，Hive 秉 承 开 源 的 精神 ， 在 不 断 地 发 展 中 ， 不断 有 新 的 特性 
加 入 其 中 。 现 在 已 经 增加 和 将 要 增加 的 一 些 新 特性 如 下 : 

1) 增加 了 用 于 收集 分 区 和 列 的 水 平 系统 计数 值 的 命令 ; 

2) 支持 在 Partition 级 别 去 更 改 Bucket 的 数量 ; 

3) 在 Hive 中 实现 检索 ; 

4) Jy Hive 增加 并 发 模型 ; 

5) 文 持 在 两 个 或 者 两 个 以 上 列 中 的 差别 选择 ; 

6) 利用 bloom 过 滤 需 提高 连接 的 效果 ; 

7) 建立 Hive 的 授权 结构 和 认证 结构 ; 

8) 在 Hive 中 使 用 位 图 检索 。 

3. VoltDB 

VoltDB 是 Mike Stonebreaker( Postgres 和 Ingres 的 联合 创始 人 ) 领导 团队 开发 的 下 一 代 开 
源 数据 库 管 理 系统 。 在 VoltDB 中 ， 所 有 事务 被 实 现 为 Java 存储 过 程 。VoltDB 大 幅 降 低 了 服 
Fit LURE AB, FELT A BBD i Ab Se a peg A Fe ARS, ET VA FES BE 
务 骨 集群 上 实现 每 秒 数 百 万 次 数据 处 理 。 不 同 于 NoSQL 的 key - value 存储 ，VoltDB 能 使 用 
SQL 存 取 ， 并 文 持 传 统 数据 库 的 ACID( 原子 性 .一 致 性 隔离 性 .持久 性 ) 模 型 。 

在 VoltDB 内 部 ， 采 用 并 行 单线 程 从 而 保证 了 事务 的 一 致 性 和 高 效率 ， 由 于 减少 了 锁 的 
管理 、 资 源 管 理 等 开销 ，VoltDB 具有 极 高 的 处 理 效 率 和 速度 。VoltDB 开发 人 员 的 测试 表明 , 
与 一 个 优化 过 的 传统 数据 库 管 理 系统 相 比 ，VoltDB 可 以 达到 后 者 45 倍 的 事务 处 理 速度 。 
VoltDB 还 具有 以 下 一 些 传 统 数 据 库 不 能 同时 具有 的 优 扣 : 

1) 可 以 达到 几乎 线性 的 扩展 ; 

2) 满足 ACID 特性 ; 

3) 提供 相 比 传统 数据 库 好 很 多 的 性 能 ; 

4) 使 用 SQL 作为 数据 库 接 口 。 

VoltDB 文 持 多 节点 并 行事 务 处理 ， 理 论 上 不 存在 节点 上 限 ， 目 前 VoltDB 开发 人 员 大 的 
测试 集群 可 以 达到 20 个 节点 。 同 时 ，VoltDB 还 存在 不 少 限 制 ， 主 要 包括 以 下 四 种 : 

1) 不 支持 动态 修改 Schema; 

2) 增加 市 点 需要 集 止 服务 ; 

3) 不 文 持 xDBC ; 

4) AdHoc 查询 性 能 不 优化 。 

4. Enomaly ECP 
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Enomaly ECP 的 全 称 是 Enomaly 弹性 计算 平台 
(Enomaly’s Elastic Compiting Platform) ， 之 前 的 名 称 





是 Enomalism。 它 是 一 个 可 编程 的 虚拟 云 架构 ， 企 
业 可 以 利用 ECP 将 自己 的 数据 中 心 和 云 计算 服务 商 
的 设备 连接 起 来 ， 简 化 不 同 数 据 中 心间 虚拟 机 的 转 
移 及 各 种 云 应 用 发 布 的 过 程 。 
Enomaly ECP 是 一 个 开放 源 代码 项 目 ， 提 供 了 E a 
一 个 功能 类 似 于 EC2 的 云 计 算 框 架 。Enomaly ECP 
基于 Linux 操作 系统 ， 同 时 支持 Xen 和 KVM( Kernel 
Virtual Machine , kernel 虚拟 机 )。 与 其 他 解决 方案 不 
"e 
同 的 是 ，Enomaly ECP 提供 了 一 个 基于 TurboGears 
Web 应 用 程序 框架 和 Python 的 软件 栈 。Enomaly 
ECP a Lo 所 下 
Enomaly ECP 具有 以 下 四 个 特性 : 


1) 目 动 供应 : ECP 提供 目 动 化 的 云 供应 引擎 ， 图 1-9 Enomaly ECP 架构 
用 于 配置 、 管 理 和 部 署 成 组 的 虚拟 机 。 

2) 灵活 性 : ECP 能 够 御 接 将 资源 提供 给 用 户 的 应 用 程序 ， 并 且 可 以 对 获得 授权 使 用 应 
用 程序 者 进行 限制 。 

3) 可 扩展 性 : ECP 的 混合 云 模型 无 颖 连接 使 用 ECP 的 内 部 云 和 外 部 云 提 供 商 。 

4) 整合 现 有 基础 设施 : 通过 ECP 提供 的 丰富 的 API， 用 户 可 以 下 接管 理 和 配置 当前 
系统 。 

目前 Enomaly ECP 有 两 个 版 本 : 一 个 是 仍旧 免费 的 社区 版 (Community Edition); 为 一 个 
是 提供 全 方位 技术 支持 的 服务 提供 商 版 (Service Provider Edition) 。 

5. Nimbus 

Nimbus 是 基于 网 格 中 间 件 Globus 的 作品 ， 从 最 早 的 Virtual Workspace 演化 而 来 ， 提 供 
与 EC2 类 似 的 功能 和 接口 。Nimbus 是 一 个 开源 的 工具 集 ， 它 可 以 把 集群 部 署 到 laas 云 中 。 
Nimbus 通过 一 整套 工具 来 提供 laas 形式 的 云 计 算 解 决 方 案 。Nimbus 属于 科学 云 (Science 
Clouds) 的 一 部 分 ， 该 项 目 创建 的 最 初 目的 是 为 了 搭建 一 个 科学 试验 用 的 云 计算 平台 ， 但 现 
在 其 应 用 已 经 超出 了 这 个 范围 ， 开 始 涉及 其 他 领域 。Nimbus 具有 如 下 四 个 特点 : 

1) 具有 两 套 Web 服务 接口 一 一 Amazon EC2 WSDL 和 符合 网 格 社区 WSRF 规范 的 接口 ; 

2) 可 以 执行 基于 Xen 管理 程序 ; 

3) 可 以 使 用 如 PBS 或 SGE 调度 器 去 调度 虚拟 机 ; 

4) 定义 了 一 个 可 扩展 涤 构 ， 用 户 可 以 根据 项 目的 需求 进行 定制 。 

Nimbus 的 架构 如 图 1-10 所 示 。Nimbus 的 架构 比较 复杂 ， 涉 及 的 新 概念 较 多 ， 这 里 只 对 
其 中 四 个 重要 的 概念 进行 简单 解释 。 

1) 标准 客户 器 (Reference Client); 以 命令 行 的 方式 访问 服务 ， 全 面 文 持 WSRF 前 台 的 
各 种 特性 ; 

2) WSRF( Web Services Resource Framework , Web 服务 资源 框架 ) ; 

3) RM API; RM 是 Resource Management 的 缩 略 语 ， 也 就 是 资源 管理 ，RMAPI 即 资源 管 
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JE API; 

4) 工作 区 (Workspace) : 实际 上 就 是 一 个 计算 和 点 。 

不 过 并 不 是 所 有 的 平台 都 必须 使 用 图 1-10 中 的 全 部 组 件 ， 图 1-10 中 的 各 个 组 件 之 间 可 
以 采取 不 同 的 组 合 方式 选择 使 用 。 

















工作 区 
指示 器 





图 1-10 Nimbus 的 构架 

6. Sector and Sphere 

Yunhong Gu 等 人 设计 实现 了 Sector and Sphere zx 计算 平台 。Sector and Sphere JMH C++ 
语言 编写 的 ， 包 括 Sector 和 Sphere 两 个 部 分 。Sector 是 部 署 在 广域网 上 的 分 布 式 存储 系统 ， 
它 为 了 使 系统 有 高 可 徘 性 和 可 用 性 而 采用 了 自动 的 文件 副本 元 余 方 式 , 已 经 用 于 Sloan 数字 
巡天 系统 。Sphere 是 建立 在 Sector 之 上 的 计算 服务 ， 它 为 用 户 编写 分 布 式 密集 型 数据 应 用 提 
供 了 人 简单 的 编程 接口 。 

Sector 采用 主 / 从 服务 器 模式 ， 其 架构 如 图 1-11 所 示 。 安 全 服务 器 维护 用 户 的 账户 、 密 
码 、 文 件 访问 信息 和 授权 的 从 市 点 的 IP 地 址 ; 主 服务 天 维护 存储 在 系统 中 的 文件 的 元 数据 ， 
控制 所 有 的 从 区 点 的 运行 ， 同 时 和 安全 服务 着 进 行 通信 来 验证 从 蔬 点 、 客 户 服务 顶 和 用 户 ; 
从 节点 用 来 存储 数据 ， 并 对 Sector 客户 端的 请 求 进行 处 理 。 

Sphere 是 以 Sector 为 基础 构建 的 计算 云 ， 提 供 大 规模 数据 的 分 布 式 处 理 。Sphere 的 基本 
数据 处 理 模型 如 图 1-12 Brz s 




























E 






安全 服务 器 主 服 务 器 a Pul mcus RISHIGC 


s 2 en D T — De] 
MUS ei 输出 流 





图 1-11 Sector 架构 Al 1-12 Sphere 的 基本 数据 处 理 模型 
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针对 不 同 的 应 用 会 有 不 同 的 数据 ，Sphere 统一 将 它们 以 数据 流 的 形式 输入 。 为 了 便于 大 
规模 地 并 行 计算 ， 首 先 要 对 数据 进行 分 割 ， 分 割 后 的 数据 交 给 SPE 执行 。SPE (Sphere Pro- 
cessing Engine , Sphere 处 理 引 敬 ) 是 Sphere 的 基本 运算 单元 。 除 了 进行 数据 处 理 外 ，SPE 还 能 
起 到 负载 平衡 的 作用 ， 因 为 一 般 情 况 下 数据 量 远 大 于 SPE 数量 ， 当 前 负载 较 重 的 SPE 能 继 
续 处 理 的 数据 就 较 少 ， 反 之 则 较 多 ， 如 此 就 实现 了 系统 的 负载 平衡 。SPE 处 理 后 的 结果 可 以 
作为 最 终结 果 以 输出 流 形式 输出 ， 也 可 以 作为 下 一 个 处 理 过 程 的 输入 。Sphere 4 im 7J 2i 53 
分 布 式 应 用 程序 的 开发 者 提供 了 一 系列 的 API 包 ， 开 发 者 可 以 使 用 这 些 API 包 来 初始 化 输入 
流 、 加 载 处 理 孔 数 库 、 启 动 Sphere 进程 和 读 取 处 理 结 果 。 具 体 流程 如 下 . 

1) EMA He BYE Sphere 数据 处 理 的 客户 端 请 求 后 ， 主 服务 硕 回 客户 端 发 送 一 个 可 用 
的 从 节点 列表 ; 

2) 客户 端 选 择 一 些 或 痢 所 有 从 和 点 ， 让 SPE 在 其 上 运行 ; 

3) 客户 端 与 SPE 建立 UDT 连接 ; 

4) 流 处 理 函 数 被 发 送 给 每 个 SPE， 并 存储 在 从 节点 上 ; 

5) SPE 打开 动态 库 并 获得 各 种 处 理 吨 数 。 

图 1-13 展示 了 使 用 两 个 Sphere 进程 执行 分 布 式 
排序 的 过 程 。 第 一 阶段 采用 哈 硕 吨 数 扫 摘 全 部 的 数 
据 流 ， 把 每 个 元 素 放 置 到 相应 的 桶 中 。 第 二 阶段 使 
用 SPE 对 每 个 桶 排序 。 在 图 1-13 中 ， 首 先 将 需要 排 
序 的 数据 进行 散 列 (Hash) 处 理 ， 将 它们 比较 均匀 地 
分 布 到 有 序 的 位 置 上 ， 最 好 能 使 每 个 位 置 所 包含 的 
数据 量 大致 相 同 。 比 如 要 排序 的 是 数字 ， 并 且 这 些 CL tet 


mT 
数字 都 在 500 之 内 ,那么 我 们 就 可 以 将 大 于 300 AY 
ET n 



































Dm De pez ers 
输入 流 






















全 部 散 列 到 位 置 A，150 ~ 300 By sg B, Fi 
下 的 散 列 到 位 置 C。 这 一 步 完 成 后 再 次 利用 SPE 对 
各 个 位 置 进行 排序 ， 有 具体 的 排序 方法 可 以 自行 选择 。 
经 过 这 两 个 过 程 后 即 可 完成 排序 ， 因 为 此 时 将 A、 


输出 流 
B. C 中 的 数据 一 次 输出 就 是 一 个 有 序数 列 。 | 
这 里 用 一 个 实例 说 明 Sphere 的 作用 。 假设 有 十 图 1-13 ”使 用 两 个 Sphere 进程 
亿 张 天 文 图 像 存 储 在 SDSS 中 ， 要 从 中 找 出 褐 矮星 执行 分 布 式 排序 的 过 程 











的 图 片 ， 用 户 需 要 写 一 个 findBrownDwarf 的 函数 从 大 量 图 片 中 找 出 需要 的 图 片 ， 在 这 个 了 浮 数 
中 ， 把 所 有 图 片 作为 输入 ， 福 矮星 图 片 作为 输出 ，findBrownDwarf( input, output ) 标准 的 内 部 
函数 如 下 : 

for each file F in( SDSS slices) 

for each image I in F 
findBrownDwarf( I, ---) ; 
使 用 Sphere 客户 端的 API， 伪 代码 如 下 : 
SphereStream sdss ; 
Sdss. init(/ * list of SDSS slices * /) ; 


SphereProcess myproc ; 
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Myproc run( sdss," findBrownDwarf" ) ; 
Myproc. read( result) ; 

其 中 ，sdss 是 存储 Sector 文件 元 数据 的 流 数据 结构 。 

通过 使 用 Sector 和 Sphere 能 够 将 数据 传输 速度 提升 至 Hadoop 的 两 倍 ， 速 度 提升 的 原因 
之 一 就 是 采用 UDT( 基于 UDP 的 数据 传输 协议 ) ， 这 一 协议 主要 是 针对 极 高 速 网 络 和 大 型 数 
据 集 设计 的 。 

7. abiquo 

abiquo 公司 推出 了 一 套 比 较 完 整 的 云 计算 解决 方案 ， 它 可 以 帮助 用 户 在 各 种 复杂 环境 下 
高 效 地 构建 公有 、 私 有 或 混合 云 。 这 套 方案 主要 包括 三 个 部 分 : abiCloud abiNtense 和 abi- 
Data。 三 个 部 分 可 以 单独 使 用 ， 也 可 搭配 起 来 使 用 。 

abiCloud 是 abiquo 公司 的 最 重要 产品 ， 是 一 款 开源 云 管理 软件 ， 可 以 创建 管理 资源 并 且 
可 以 按 需 扩展 。 该 工具 能 够 以 快速 、 简 单 和 可 扩展 的 方式 创建 和 管理 大 型 、 复 杂 的 IT 基础 
设施 (包括 虚拟 服务 各 .网络 .应 用 和 存储 设备 等 ) 。abiCloud 较 之 同类 其 他 产品 的 一 个 主要 区 
别 在 于 其 强大 的 Web 界面 管理 ， 用 户 可 以 通过 拖 卡 一 个 虚拟 机 来 部 署 一 个 新 的 服务 。 它 多 
许 通过 VirtualBox 部 署 实例 ， 还 支持 VMware, KVM 和 Xen 等 不 同 的 虚拟 机 。 

abiCloud 目前 主要 有 三 个 版 本 : 社区 版 (Community Version), AV f ( Enterprise Ver- 
sion ) 和 ISP 版 (ISP Version ISP. 即 互联 网 服务 提供 商 )。 社 区 版 回 公 众人 免费 提供 ， 企 业 版 则 在 
社区 版 基础 上 添加 了 一 些 高 级 特性 ， 而 ISP 版 通过 扩展 企业 版 的 内 容 来 允许 ISP 出 售 其 云 计 
算 服务 。 

abiCloud 的 基础 构架 如 图 1-14 所 示 。 


第 三 方 应 用 abiCloud 客户 端 
程序 / 云 平台 (flex) 
远程 对 象 连接 


abiCloud BE 43-48 i 
(Java) 























数据 库 
abiCloud WS ||abiCloud vws|| abiCloud abiCloud 
) a 应 用 管理 存储 管理 
(Java) (Java) TR des 





插件 管理 


Sie 


插件 管理 


图 1-14 abiCloud 的 基本 构架 
abiCloud 的 基本 构架 清晰 明了 ， 其 中 abiCloud_WS 是 平台 的 虚拟 工厂 ， 主 要 负责 管理 各 
种 虚拟 化 技术 。abiCloud_VMS(abiCloud Virtul Monitor System) 用 来 监控 虚拟 化 设备 的 运行 状 
态 。 从 图 1-14 中 可 以 看 出 ，abiCloud ER Y BRP im T flex 技术 外 ， 其 他 部 分 几乎 都 是 由 
Java 语言 来 实现 的 。 和 abiCloud 相 比 ， 基 他 两 个 产品 使 用 的 并 不 是 很 多 。AbiNtense 通过 使 
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用 基于 网 络 的 架构 ， 有效 地 减少 了 大 规模 高 性 能 计算 的 执行 时 间 。abiData 由 Hadoop Com- 
mon, Hbase 和 Pig 开发 而 来 ， 它 是 一 个 信息 管理 系统 ， 可 以 用 来 搭建 分 析 大 量 数据 的 应 用 ， 
是 一 种 低 成 本 的 云 存 储 解决 方案 。 

8. MongoDB 

MongoDB 是 由 10gen 公司 文 持 的 一 项 开源 计划 。10gen 公司 云 平 台 可 用 于 创建 私有 云 ， 
是 类 似 于 Google App Engine 的 一 个 软件 栈 ， 提 供与 App Engine 类 似 的 功能 ， 但 有 一 些 不 同 
之 处 ， 通 过 10gen 公司 可 以 使 用 Python JavaScript 和 Ruby 编程 语言 开发 应 用 程序 。 该 平台 
还 使 用 沙 盒 概念 隔离 应 用 程序 ， 并 且 使 用 自己 的 应 用 服务 需 在 Linux 上 构建 可 靠 的 环境 。 

MongoDB 的 目标 是 构建 一 个 基于 分 布 树 文件 存储 系统 的 数据 库 ， 由 C ++ 语 言 编 写 。 

MongoDB 易于 部 署 、 管 理 和 使 用 ， 主 要 设计 目标 是 高 性 能 、 可 扩展 和 适当 的 功能 。 

MongoDB 主要 有 以 下 6 个 特性 : 

1) 易 存 储 对 和 象 类 型 的 数据 ，; 

2) 高 性 能 ， 特 别 适合 “电容 量 、 值 较 低 ” 的 数据 类 型 ; 

3) 文 持 动态 查询 ; 

4) 文 持 复制 和 故 隐 恢 复 ; 

5) 目 动 处 理 碎片 以 支持 云 计算 层次 上 的 扩展 性 ，; 

6) 使 用 高 效 的 二 进 制 数据 存储 方式 ， 可 以 存储 包括 视频 在 内 的 大 型 数据 。 

MongoDB 的 架构 如 图 1-15 所 示 。 

















数据 中 心 A 数据 中 心 B 





图 1-15 MongoDB 的 架构 
考虑 到 系统 存在 失效 的 情况 ，MongoDB 





对 所 存储 的 数据 都 进行 T# 份 将 不 同 的 BN e memcached 

据 副 本 存储 在 不 同 的 数据 中 心 。 对 于 存储 的 刍 / 值 

" Mole un iE Q 存储 (9 MongoDB 
数据 MongoDB 又 进行 了 人 分割 ， 将 不 同 的 分 搬 


存放 在 数据 中 心 的 不 同 服务 咒 上 ， 这 就 解决 及 性 能 
了 大 规模 数据 的 存储 和 查询 问题 。 

图 1-16 所 示 是 MongoDB 与 目前 主流 的 存 
储 方案 进行 的 简单 比较 。 











从 图 1-16 所 示 中 可 以 看 出 ，MongoDB 的 "m 
最 大 优势 在 于 它 的 均衡 性 ，MongoDB 可 以 在 
功能 以 及 扩展 性 方面 找到 一 个 绝 佳 的 平衡 点 。 图 1-16 主流 存储 方案 对 比 





其 他 存储 方式 要 么 功能 强大 但 扩展 性 和 性 能 较 差 (RDBMS ) ， 要 么 可 扩展 很 好 但 功能 有 限 
(memcached 、 键 / 值 对 方式 存储 ) 。 
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2.1 Hadoop 简介 


Hadoop 是 一 个 分 布 式 系统 基础 架构 ， 由 Apache 基金 会 开发 。 用 户 可 以 在 不 了 解 分 布 式 
拭 层 细 闻 的 情况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运 算 和 人 存储。Hadoop 实 
现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 。HDFS 有 着 高 容错 性 的 特 
点 ， 并 且 设 计 用 来 部 署 在 低廉 的 (Low-ceost) 便 件 上 。 而 且 它 提供 高 传输 率 ( High Throughput) 
来 访问 应 用 程序 的 数据 ， 适 合 那些 有 看 超大 数据 集 ( Large Data Set) 的 应 用 程序 。HDFS 放宽 
了 (Relax)POSIX 的 要 求 (Requirements)， 这 样 可 以 流 的 形式 访问 (Streaming Access) 文 件 系统 
中 的 数据 。 

1. Hadoop 名 字 的 起 源 

Hadoop 这 个 名 字 不 是 一 个 缩写 ， 它 是 一 个 虚构 的 名 字 。 该 项 目的 创建 者 ，Doug Cutting 
如 此 解释 Hadoop 的 得 名 :“ 这 个 名 字 是 我 孩子 给 一 个 标 黄 色 的 大 象 样子 的 填充 玩具 命名 的 。 
我 的 命名 标准 就 是 简短 ， 容 易 发 音 和 拼写 ， 没 有 太 多 的 意义 ， 并 且 不 会 被 用 于 别处 。 小 孩子 
是 这 方面 的 高 手 。 

2. Hadoop 的 起 源 

Hadoop 由 Apache Software Foundation 公司 于 2005 年 秋天 作为 Lucene 的 子 项 目 Nutch 的 
一 部 分 正式 引入 。 它 最 先 受 到 由 Google Lab 开发 的 Map/Reduce 和 Google File System( 合 歌 文 
件 系 统 ,GFS) 的 启发 。2006 年 3 月 ， Map/Reduce 和 Nutch Distributed File System ( Nutch 分 布 
式 文件 系统 ,NDFS) 分 别 被 纳入 称 为 Hadoop 的 项 目 中 。 

Hadoop 是 最 受 欢 迎 的 在 互联 网 上 对 搜索 关键 字 进 行内 容 分 类 的 工具 ,但 它 也 可 以 解决 
许多 要 求 极 大 伸缩 性 的 问题 。 例 如 ， 如 果 要 grep 一 个 10TB 的 巨型 文件 ， 会 出 现 什么 情况 ? 
在 传统 的 系统 上 ， 这 将 需要 很 长 的 时 间 。 但 是 Hadoop 在 设计 时 就 考虑 到 这 些 问题 ， 采 用 并 
行 执行 机 制 ， 因 此 能 大 大 提高 效率 。 

3. HATER 

Hadoop 是 一 个 能 够 对 大 量 数 据 进 行 分 布 式 处 理 的 软件 框架 。 但 是 Hadoop 是 以 一 种 可 
靠 、 高 效 、 可 伸缩 的 方式 进行 处 理 的 。Hadoop 是 可 靠 的 ， 因 为 它 假设 计算 元 素 和 存储 会 失 
败 ， 因 此 它 维护 多 个 工作 数据 副本 ,确保 能 够 针对 失败 的 市 点 重新 分 布 处 理 。Hadoop 4 
效 的 ， 因 为 它 以 并 行 的 方式 工作 ,通过 并 行 处 理 加 快 处 理 速 度 。Hadoop 还 是 可 伸缩 的 ， 能 
够 处 理 折 字 方 (PB) 级 数据 。 此 外 ，Hadoop 依赖 于 社区 服务 上 各 ， 因 此 它 的 成 本 比较 低 ， 任 何 
人 都 可 以 使 用 。 

Hadoop 市 有 用 Java 语言 编写 的 框架 ， 因 此 运行 在 Linux 操作 平台 上 是 非常 理想 的 。Ha- 
doop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ， 比 如 C ++ 语言 。 
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2.2 Hadoop 架构 


Hadoop 有 许多 元 素 构 成 ， 如 图 2-1 所 示 。 其 最 底部 是 Hadoop Distributed File System ( Ha- 
doop 分 布 式 文件 系统 ,HDFS)， 它 存储 Hadoop 集群 中 所 有 存储 方 点 上 的 文件 。HDFS( 对 于 
本 书 ) 的 上 一 层 是 MapReduce 引擎， 该 引擎 由 JobTrackers 和 TaskTrackers ZH JV, . 


. NameNode 
Networking 


Replicated data blocks 













TCP/IP Metadata 





图 2-1 Hadoop 架构 


2.3 HDFS 


2.3.1 设计 思想 


1. FRIE “KORE, mE “ARAF” 

HDFS 可 能 是 由 上 千 台 机 顺 组 成 (如 Yahoo 的 Hadoop 集群 有 4096 个 节点 )， 任 何 一 个 组 
件 都 有 可 能 一 二 失效 ， 因 此 数据 的 健壮 性 错误 检测 和 快速 、 目 动 恢 复 是 HDFS 的 核心 架构 
目标 。 

2. 流 式 数据 访问 

运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 ， 需 要 流 陈 访问 它们 的 数据 集 。HDFS 的 设计 
中 更 多 地 考 愿 到 了 效 据 批 处 理 ， 而 不 是 用 户 交 互 处 理 。 比 之 数据 访问 的 低 延 迟 问 题 ， 更 关键 
的 在 于 数据 并 发 访问 的 高 硬 吐 量 。POSIX 标准 设置 的 很 多 硬性 约束 对 HDFS 应 用 系统 不 是 必 
需 的 。 为 了 提高 数据 的 厨 吐 量 ， 在 一 些 关 键 方面 对 POSIX 的 语义 做 了 一 些 修改 。 

3. HDFS 应 用 对 文件 要 求 的 是 write-one-read-many 访问 模型 

一 个 文件 经 过 创建 、 写 、 关 闭 之 后 就 不 需要 改变 。 这 一 假设 简化 了 数据 一 致 性 问题 ， 使 
高 吞吐 量 的 数据 访问 成 为 可 能 。 盟 型 的 如 MapReduce 框架 ， 或 者 一 个 web crawler 应 用 都 很 
适合 这 个 模型 。 

4. 移动 计算 的 代价 比 移动 数据 的 代价 低 

一 个 应 用 请 求 的 计算 ， 离 它 操作 的 数据 越 近 就 越 高 效 ， 这 在 数据 达到 海量 级 别 的 时 候 更 
是 如 此 。 将 计算 移动 到 数据 附近 ， 比 将 数据 移动 到 应 用 所 在 显然 更 好 ，HDFS 提供 给 应 用 这 
样 的 接口 。 

5. 在 异 构 的 软 便 件 平台 间 的 可 移植 性 
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2.3.2 Namenode 和 Datanode 的 划分 


一 个 HDFS 集群 由 一 个 Namenode 和 一 定数 目的 Datanode 组 成 ， 如 图 2-2 Prax. 





HDFS Architecture 


Metadata (Name, replicas, ...): 


/home/foo/data, 3, ... 





Metadata ops " 


e Block cdi 
Read Datanode m Datanode 




















Rack 1 o Wie. Rack 2 
图 2-2 HDFS 集群 
Namenode 是 一 个 中 Vd 负责 管理 文件 系统 的 namespace 和 客户 端 对 文件 的 访问 。 
Datanode 在 集群 中 会 有 多 个 ， 一 般 是 一 个 布点 存在 一 个 ， 负 责 管理 其 目 吴 节点 上 附 守 的 


存储 。 在 内 部 ， as block, 3XJ* block 存储 在 Datanode 集合 里 。Na- 
menode 执行 文件 系统 的 namespace 相关 操作 ; 例如 打开 . XB, 重 命名 文件 和 目录 . 同时 决 
^E f block 到 具体 Datanode 节点 的 映射 。Datanode 在 Namenode 的 指挥 下 进行 block 的 创建 、 
删除 和 复制 。 

单一 市 点 的 Namenode 大 大 人 徇 化 了 系统 的 架构 。Namenode 负责 保管 和 管理 所 有 的 HDFS 
元 数据 ， 因 而 在 请 求 Namenode 得 到 文件 的 位 置 后 就 不 需要 通过 Namenode 参与 而 直接 从 Da- 
tanode 进行 。 

为 了 提高 Namenode 的 性 能 ， 所 有 文件 的 namespace 数据 都 在 内 存 中 维护 ， 所 以 就 天 生 
存在 了 由 于 内 存 大 小 的 DE M HDFS 集群 提供 服务 的 文件 数量 的 上 限 。 

根据 目前 的 文档 ， 元 数据 (一 个 HDFS 文件 块 ) 占 用 200B， 如 果 是 页 面 抓 取 的 小 文 
1E, ABA 32GB KAÍ m 1. 5 亿 个 左右 的 文件 存储 (有 待 精确 详细 测试 ) 。 


2.3.3 文件 系统 操作 和 namespace 的 关系 


HDFS 文 持 传统 的 层次 型 文件 组 织 ， 与 大 多 数 其 他 文件 系统 类 似 ， 用 户 可 以 创建 目录 ， 
并 在 其 间 创 建 、 删 除 、 移 动 和 重 命 名 文件 HDFS 不 支持 user quotas 和 访问 权限 ， 也 不 支持 
链接 ( Link ) ， 不 过 当前 的 架构 并 不 排除 实现 这 些 特性 。Namenode 维护 文件 系统 的 
namespace， 任 何 对 文件 系统 namespace 和 文件 属性 的 修改 都 将 被 Namenode 记录 下 来 。 应 用 
可 以 设置 HDFS 保存 的 文件 的 副本 数目 ， 文 件 副 本 的 数目 称 为 文件 的 replication 因子 ， 这 个 
信息 也 是 由 Namenode 保存 。 
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2.3.4 数据 复制 


HDFS 被 设计 成 在 一 个 大 集群 中 可 以 鉴 机 需 可 基地 存储 海量 文件 。 它 将 每 个 文件 存储 成 
block 序列 ， 除 了 最 后 一 个 block ， 所 有 的 block 都 是 同样 大 小 。 文 件 的 所 有 block 为 了 容错 都 
会 被 复制 。 每 个 文件 的 block 大 小 和 replication 因子 都 是 可 配置 的 。replication 因子 可 以 在 文 
件 创建 时 配置 ， 以 后 也 可 以 改变 。HDFS 中 的 文件 是 write-one， 并 且 严 格 要 求 在 任何 时 候 只 
有 一 个 writer, Namenode 全 权 管 理 block 的 复制 ， 它 周期 性 地 从 集群 中 的 每 个 Datanode 接收 
心跳 包 和 一 个 Blockreport。 心 跳 包 的 接收 表示 该 Datanode 节点 正常 工作 ， 而 Blockreport 包括 
了 该 Datanode 上 所 有 的 block 组 成 的 列表 。 

1. 副本 的 存放 

副本 的 存放 是 HDFS 可 徘 性 和 性 能 的 关键 。 庞 大 的 HDFS 实例 一 般 运 行 在 多 个 机 染 的 
计算 机 形成 的 集群 上 ， 不同 机 架 间 的 两 台 机 副 的 通信 知 要 通过 交换 机 ， 显 然 通 党 情况 下 ， 
同一 个 机 损 内 的 两 个 节点 间 的 市 宽 会 比 不 同 机 织 间 的 两 台 机 融 的 市 宽大 。 在 大 多 效 情 况 
下 replication 因子 是 3，HDFS 的 存放 策略 是 将 一 个 副本 存放 在 本 地 机 架 上 的 市 点 上 , 一 
个 副本 放 在 同一 机 架 上 的 男 一 个 市 点 上 ， 最 后 一 个 副本 放 在 不 同 机 架 上 的 一 个 节点 上 。 
机 织 的 错误 远 远 比 布 点 的 错误 少 ， 这 个 策略 不 会 影响 到 数据 的 可 对 性 和 有 效 性 。173 的 副 
本 在 一 个 节点 上 ， 另 外 273 FE-PE, IR FE ERP LZR, KR CE T 
与 的 性 能 。 

2. 副本 的 选择 

为 了 降低 整体 的 带宽 消耗 和 读 延 时 ，HDFS 会 尽量 让 reader 读 最 近 的 副本 。 如 果 在 read- 
er 的 同一 个 机 架 上 有 一 个 副本 ,那么 就 恋 访 副本。 如果 一 个 HDFS 集群 跨越 多 个 数据 中 心 ， 
那么 reader 也 将 首先 尝试 读本 地 数据 中 心 的 副本 。 

3. SafeMode 

Namenode 启动 后 会 进入 一 个 称 为 SafeMode 的 特殊 状态 ， 处 在 这 个 状态 的 Namenode 是 
不 会 进行 数据 块 的 复制 的 。Namenode 从 所 有 的 Datanode 接收 心跳 包 和 Blockreport, Blockre- 
port 包括 了 某 个 Datanode 所 有 的 数据 块 列表 。 每 个 block 部 有 指定 的 最 小 数目 的 副本 。 当 
Namenode 检测 确认 某 个 Datanode 的 数据 块 副本 的 最 小 数目 ， 那 么 该 Datanode WERA Az 
安全 的 ; 如 采 一 定 百 分 比 ( 这 个 参数 可 配置 ) 的 数据 块 检测 确认 是 安全 的 ， 那 么 Namenode 将 
退出 SafeMode 状态 ， 接 下 来 它 会 确定 还 有 哪些 数据 块 的 副本 没有 达到 指定 数目 ， 并 将 这 些 
block 复制 到 其 他 Datanode , 


2.3.5 文件 系统 元 数据 的 持久 化 


Namenode 存储 HDFS 的 元 数据 。 对 于 任何 对 文件 元 数据 产生 修改 的 操作 ，Namenode 都 
使 用 一 个 称 为 Editlog 的 事务 日 志 记 录 下 来 。 例 如 ， 在 HDFS 中 创建 一 个 文件 ，Namenode 就 
会 在 Editlog 中 插入 一 条 记录 来 表示 ; 同样 ， 修 改 文件 的 replication 因子 也 将 往 Editlog 插入 
一 条 记录 。Namenode 在 本 地 OS 的 文件 系统 中 存储 这 个 Editlog。 整 个 文件 系统 的 namespace, 
包括 block 到 文件 的 映射 、 文 件 的 属性 ， 都 存储 在 称 为 FsImage 的 文件 中 ， 这 个 文件 也 是 放 
在 Namenode 所 在 系统 的 文件 系统 上 。Namenode 在 内 存 中 保存 着 整个 文件 系统 namespace 和 
文件 Blockmap 的 映像 。 这 个 关键 的 元 数据 设计 得 很 紧凑 ， 一 般 占 用 200B 的 内 存 ， 因 而 一 个 
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WA 4GB 内 存 的 Namenode 足够 支撑 海量 的 文件 和 目录 。 当 Namenode 局 动 时 ， 它 从 硬盘 中 
读 取 Editlog 和 FsImage， 将 所 有 Editlog 中 的 事务 作用 ( Apply ) 在 内 存 中 的 FsImage 上 ， 并 将 
这 个 新 版 本 的 FsImage 从 内 存 中 flush 到 人 硬盘 上 ， 然 后 再 truncate 这 个 旧 的 Editlog， 因 为 这 个 
旧 的 Editlog 的 事务 都 已 经 作用 在 FsImage 上 了 了。 这 个 过 程 称 为 checkpoint。 在 当前 实现 中 ， 
checkpoint 只 发 生 在 Namenode 启动 时 ， 在 不 久 的 将 来 我 们 将 实现 支持 周期 性 的 checkpoint, 
Datanode 并 不 知道 关于 文件 的 任何 东西 ， 除 了 将 文件 中 的 数据 保存 在 本 地 的 文件 系统 上 。 它 
把 每 个 HDFS 数据 块 存储 在 本 地 文件 系统 上 隔离 的 文件 中 。Datanode 并 不 在 同一 个 目录 创建 
所 有 的 文件 ， 相 反 ， 它 用 局 发 式 方法 来 确定 每 个 目录 的 最 佳 文 件数 目 ， 并 且 在 适当 的 时 候 创 
建 子 目录 。 在 同一 个 目录 创建 所 有 的 文件 不 是 最 优 的 选择 ， 因 为 本 地 文件 系统 可 能 无 法 高 效 
地 在 单一 日 录 中 支持 大 量 的 文件 。 当 一 个 Datanode 启动 时 ， 它 扫描 本 地 文件 系统 ， 对 这 些 
本 地 文件 产生 相应 的 一 个 所 有 HDFS 数据 块 的 列表 ， 然后 发 送 报告 到 Namenode， 这 个 报告 


就 是 Blockre port, 
2.3.6 通信 协议 


所 有 的 HDFS 通信 协议 都 构建 在 TCP/IP 上 。 客 户 端 通过 一 个 可 配置 的 端口 连接 到 Nam- 
enode， 通 过 ClientProtocol Ej Namenode 交互 。 而 Datanode 使 用 DatanodeProtocol 与 Namenode 
交互 。 从 ClientProtocol 和 Datanodeprotocol 抽象 出 一 个 远程 调用 ( RPC)， 在 设计 上 ，Nameno- 
de 不 会 主动 发 起 RPC, MAME AAP A Datanode 的 RPC 请 求 。 


2.3.7 健壮 性 
HDFS 的 主要 目标 就 是 实现 在 失败 情况 下 的 数据 存储 可 靠 性 。 常 见 的 三 种 失败 为 Name- 


node failures, Datanode failures 和 网 络 分 害 ( Network partitions) 。 

1. 便 盘 数据 错误 、 心 跳 检 测 和 重新 复制 

每 个 Datanode 市 点 都 问 Namenode 周期 性 地 发 送 心 跳 包 。 网 络 切割 可 能 导致 一 部 分 Da- 
tanode 跟 Namenode 失去 联系 。Namenode 通过 心跳 包 的 缺失 检测 到 这 一 情况 ， 并 将 这 些 Data- 
node 标记 为 dead ， 不 会 将 新 的 10 请 求 发 给 它们 。 寄 存在 dead Datanode 上 的 任何 数据 将 不 再 
有 效 。Datanode 的 死亡 可 能 引起 一 些 block 的 副本 数目 低 于 指定 值 ，Namenode 不 断 地 跟 踩 需 
要 复制 的 block， 在 任何 需要 的 情况 下 局 动 复 制 。 在 下 列 情况 可 能 需要 重新 复制 : AES Data- 
node WAR, E BASE sisi. Datanode 上 的 人 硬盘 错误 或 者 文件 的 replication | 因子 
LER. 

2. 集群 均衡 

HDFS 支持 数据 的 均衡 计划 ， 如 果菜 个 Datanode 节点 上 的 空闲 空间 低 于 特定 的 临界 点 ， 
那么 就 会 启动 一 个 计划 自动 地 将 数据 从 一 个 Datanode 搬移 到 空闲 的 Datanode。 当 对 某 个 文件 
的 请 求 突然 增加 时 ， 也 可 能 启动 一 个 计划 创建 该 文件 新 的 副本 ， 并 分 布 到 集群 中 以 满足 应 用 
的 要 求 。 这 些 均 衡 计 划 目 前 还 没有 实现 。 

3. 数据 完整 性 

MAS Datanode 获取 的 数据 块 有 可 能 是 损坏 的 ， 这 个 损坏 可 能 是 由 于 Datanode 的 存储 
设备 错误 、 网 络 错误 或 者 软件 bug 造成 的 。HDFS 客户 端 软件 实现 了 HDFS 文件 内 容 的 校 验 
和 。 某 个 客户 端 创建 一 个 新 的 HDFS 文件 ， 会 计算 这 个 文件 每 个 block 的 校 验 和 ， 并 作为 一 
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个 单独 的 隐藏 文件 保存 这 些 校 验 和 在 同一 个 HDFS namespace Fo B&F intr A SEAR, € 
会 确认 从 Datanode 获取 的 数据 跟 相 应 的 校 验 和 文件 中 的 校 验 和 是 否 匹配 ， 如 有 末 不 匹配 ， 客 
Fm n] DATE M Hil Datanode 获取 该 block 的 副本 。 

4. 元 数据 磁盘 错误 

FsImage 和 Editlog 是 HDFS 的 核心 数据 结构 。 如 有 果 这 些 文件 损坏 了， 整个 HDFS 实例 都 
将 失效 。 因 而 ，Namenode 可 以 配置 成 支持 维护 多 个 FsImage 和 Editlog 的 拷贝 。 任 何 对 FsIm- 
age 或 者 Editlog 的 修改 ， 都 将 同步 到 它们 的 副本 上 。 这 个 同步 操作 可 能 会 降低 Namenode 
秒 能 文 持 处 理 的 namespace 事务 。 这 个 代价 是 可 以 接受 的 ， 因 为 HDFS 是 数据 密集 的 ， 而 非 
元 数据 密集 。 当 Namenode 重 局 时 ， 它 总 是 选取 最 近 的 一 致 的 FsImage 和 Editlog 使 用 。Nam- 
enode TE HDFS 是 单 点 存在 ， 如 果 Namenode 所 在 的 机 大 错误 ,手工 的 干预 是 必需 的 。 目 前 ， 
在 为 一 台 机 器 上 重启 因 故 障 而 停止 服务 的 Namenode 这 个 功能 还 没 实现 。 


2.3.8 数据 组 织 


1. 数据 块 

HAE HDFS 的 应 用 部 是 处 理 大 数据 集合 的 。 这 些 应 用 都 是 写 数据 一 次 ， 读 可 以 是 多 次 ， 
并 且 读 的 速度 要 满足 流 式 谈 。HDFS 支持 文件 的 write-once-read-many, 一 个 典型 的 block 大 小 
是 64MB, 因而 文件 总 是 按照 64MB 切 分 成 chunk 每 个 chunk 存储 于 不 同 的 Datanode 上 。 

2. 数据 产生 步骤 

某 个 客户 端 创建 文件 的 请 求 其 实 并 没有 立即 发 给 Namenode 事实 上 , HDFS 客户 端 会 将 
文件 数据 缓存 到 本 地 的 一 个 临时 文件 中 。 应 用 的 写 被 透明 地 重 定向 到 这 个 临时 文件 。 当 这 个 
临时 文件 累积 的 数据 超过 一 个 block 的 大 小 (默认 64MB) ， 客 户 端 才 会 联系 Namenode, Nam- 
enode 将 文件 名 插入 文件 系统 的 层次 结构 中 ， 并 且 分 配 一 个 数据 块 给 它 ， 然 后 返回 Datanode 
的 标识 符 和 目标 数据 块 给 客户 端 。 客 户 并 将 本 地 临时 文件 flush 到 指定 的 Datanode E, HX 
件 关 闭 时 ， 在 临时 文件 中 剩余 的 没有 flush 的 数据 也 会 传输 到 指定 的 Datanode， 然 后 客户 端 
告诉 Namenode 文件 已 经 关闭 。 此 时 Namenode 才 将 文件 创建 操作 提交 到 持久 存储 。 如 果 Na- 
menode 在 文件 关 财 前 关 财 了 ， 该 文件 将 丢失 。 上 述 方法 是 通过 对 HDFS 上 运行 的 目标 应 用 
认真 考虑 的 结果 。 如 来 不 来 用 客户 端 绥 存 ， 由 于 网 络 速度 和 网 络 墙 窟 会 对 耕 佑 量 造成 比较 大 
的 影 啊 。 

3. 数据 块 复制 

eT Pm] HDFS 文件 写 数据 时 ， 一 开始 是 写 入 本 地 临时 文件 ， 假 设 该 文件 的 rep- 
lication 因子 设置 为 3， 那 么 客户 问 会 从 Namenode 获取 一 张 Datanode 列表 来 存放 副本 。 然 后 
客户 端 开 始 辐 第 一 个 Datanode 传输 数据 ， 第 一 个 Datanode 一 小 部 分 (4kbit) 一 小 部 分 地 接收 
数据 ， 将 每 个 部 分 写 人 本 地 仓库 ， 并 且 同 时 传输 该 部 分 到 第 二 个 Datanode 市 点 。 第 二 个 Da- 
tanode 也 是 这 样 ， 边 收 边 传 ， 一 小 部 分 一 小 部 分 地 收 ， 存 储 在 本 地 仓库 ， 同 时 传 给 第 三 个 
Datanode。 第 三 个 Datanode 就 仅仅 是 接收 并 存储 了 。 这 就 是 流水 线 式 的 复制 。 


2.3.9 访问 接口 


HDFS 给 应 用 提供 了 多 种 访问 方式 ， 可 以 通过 DFSShell 通过 命令 行 与 HDFS 数据 进行 交 
互 ， 可 以 通过 java API 调用， 也 可 以 通过 C 语言 的 封装 API 访问 ， 并 且 提 供 了 浏览 器 访问 的 
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方式 。 正 在 开发 通过 WebDav 协议 访问 的 方式 。 
2.3.10 空间 的 回收 


1. 文件 的 删除 和 恢复 

用 户 或 者 应 用 删除 某 个 文件 ， 这 个 文件 并 没有 立刻 从 HDFS 中 删除 。 相 反 ，HDFS 将 这 
个 文件 mv 到 /trash 目录 。 当 文件 还 在 /trash 目录 时 ， 该 文件 可 以 被 迅速 地 恢复 。 文 件 在 / 
trash 目录 中 保存 的 时 间 是 可 配置 的 ， 超 过 这 个 时 间 ，Namenode 就 会 将 /trash 目录 中 的 文件 
批量 从 namespace 中 删除 。 文 件 的 删除 ， 也 将 释放 关联 该 文件 的 数据 块 。 并 且 需 要 注意 的 
是 ， 在 文件 被 用 户 删 除 和 HDFS 空闲 空间 的 增加 之 间 会 有 一 个 等 待 时 间 延 退 。 当 被 删除 的 文 
件 还 保留 在 /trash 目录 中 时 ， 如 果 用 户 想 恢复 这 个 文件 ， 可 以 检索 浏览 /trash 目录 并 检索 该 
文件 。/trash 目录 仅仅 保存 被 删除 文件 的 最 近 一 次 拷贝 。vLtrash 目录 与 其 他 文件 目录 没有 什 
么 不 同 ， 除 了 一 点 : HDFS 在 该 目录 上 应 用 了 一 个 特殊 的 策略 来 目 动 删除 文件 ， 目 前 的 默认 
琳 略 是 删除 保留 超过 6b 的 文件 ， 这 个 策略 以 后 会 定义 成 可 配置 的 接口 。 

2. replication 因子 的 减 小 

当 菏 个 文件 的 replication 因子 减 小 ，Namenode 会 选择 要 删除 的 过 剩 的 副本 。 下 次 心跳 检 
测 就 将 该 信息 传递 给 Datanode ，Datanode 束 会 移 除 相 应 的 block 并 释放 空间 ， 同 样 ， 在 调用 
setReplication 方法 和 集群 中 的 空闲 空间 增加 之 间 会 有 一 个 时 间 延 到 。 


















































2.4 分 布 式 数据 处 理 MapReduce 





最 人 简单 的 MapReduce 应 用 程序 至 少 包含 三 个 部 分 : 一 个 map 了 艺 数 、 一 个 reduce 函数 和 
一 个 main PRIX, main 函数 将 作业 控制 和 国人 
文件 输入 /输出 结合 起 来 。 在 这 点 上 ， 人 人 
Hadoop 提供 了 大 量 的 接口 和 抽象 类 ， 从 
而 为 Hadoop 应 用 程序 开发 人 员 提 供 许 多 
工具 ， 可 用 于 调试 和 性 能 度量 等 。 

MapReduce 本 对 就 是 用 于 并 行 处 理 大 
数据 集 的 软件 框 染 。MapReduce 的 根源 是 
PRICE Zit Fe FA map 和 reduce PIAL, € 
由 两 个 可 能 包含 有 许多 实例 (许多 map 和 
reduce) 的 操作 组 成 。map 函数 接收 一 组 
数据 并 将 其 转换 为 一 个 键 / 值 对 列表 ， 输 
人 域 中 的 每 个 元 系 对 应 一 个 键 / 值 对 。re- 
duce PR ZA BZ I. map 吗 数 生成 的 列表 ， 然 
后 根据 它们 的 键 (为 每 个 键 生成 一 个 键 / 


值 对 ) 缩 小 键 / 值 对 列表 。 
MapReduce 流程 的 概念 流 如 图 2-3 
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这 里 提供 一 个 示例 ， 帮 助理 解 。 假 设 [d 2-3 MapReduce 流程 的 概念 流 
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输入 域 是 one small step for man, one giant leap for mankind, 在 这 个 域 上 运行 map KAOH 

(one,1) (small,1) (step,1) (for,1) (man,1) 

(one,1) (giant,1) (leap ,1) (for,1) (mankind ,1 ) 

如 果 对 这 个 键 / 值 对 列表 应 用 reduce 函数 ， 将 得 到 以 下 一 组 键 / 值 对 . 

(one,2) ( small,1) ( step, 1) (for,2) ( man,1) ( giant, 1) (leap,1) (mankind,!1) 

结果 是 对 输入 域 中 的 单词 进行 计数 ， 这 无 疑 对 处 理 索 引 十 分 有 用 。 但 是 ， 现 在 假设 有 两 
As tay A da. 第 一 个 是 one small step for man; 第 二 个 是 one giant leap for mankind, 可 以 在 每 个 
域 上 执行 map KŠA reduce 图 数 ， 然 后 将 这 两 个 键 / 值 对 列表 应 用 到 另 一 个 reduce KZ, 3X 
时 得 到 与 前 面 一 样 的 结 末 。 换 名 话说， 可 以 在 输入 域 并 行使 用 相同 的 操作 ， 得 到 的 结 采 是 一 
样 的 ， 但 速度 更 快 。 这 便 是 MapReduce 的 “威力 ”; 它 的 并 行 功能 可 在 任意 数量 的 系统 上 使 
用 。 图 2-4 以 区 段 和 迭代 的 形式 演示 了 这 种 思想 。 


1000 Mbit 


100 Mbit 100 Mbit 
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图 2-4 显示 处 理 和 存储 的 物理 分 布 的 Hadoop 集群 
现在 回 到 Hadoop 上 ， 它 是 如 何 实现 这 个 功能 的 ?一 个 代表 客户 机 在 单个 主 系统 上 启动 
的 MapReduce 应 用 程序 称 为 JobTracker。 类 似 于 NameNode， 它 是 Hadoop 集群 中 惟一 负责 欣 
ii| MapReduce 应 用 程序 的 系统 。 在 应 用 程序 提交 之 后 ， 将 提供 包含 在 HDFS 中 的 输入 和 输出 
H3*, JobTracker 使 用 文件 块 信息 (物理 量 和 位 置 ) 确 定 如 何 创 建 其 他 TaskTracker 从 属 任务 。 
MapReduce 应 用 程序 被 复制 到 每 个 出 现 输入 文件 块 的 市 点 ， 将 为 特定 方 点 上 的 每 个 文件 块 创 
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建 一 个 惟一 的 从 属 任 务 。 每 个 TaskTracker 将 状态 和 完成 信息 报告 给 JobTracker。 图 2-4 显示 
了 一 个 示例 集群 中 的 工作 分 布 。 

Hadoop 的 这 个 特点 非常 重要 ， 因 为 它 并 没有 将 存储 移动 到 某 个 位 置 以 供 处 理 ， 而 是 将 
处 理 移动 到 存储 位 置 。 这 通过 根据 集群 中 的 节点 数 调 和 处 理 ， 因 此 文 持 高 效 的 数据 处 理 。 
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$3: Linux 命令 操作 


3.1 Linux 操作 系统 介绍 


3.1.1 Linux 操作 系统 的 产生 


Linux 操作 系统 是 一 种 计算 机 操作 系统 ， 是 UNIX 操作 系统 的 一 种 克隆 系统 ， 这 是 因为 
Linux 操作 系统 和 UNIX 操作 系统 有 着 很 次 的 渊源 。 

在 计算 机 非常 昂 吐 的 年 代 ， 只 有 在 大 学 或 大 型 企业 中 才能 够 接触 到 计算 机 ， 人 们 非常 硕 
望 多 个 用 户 能 同时 连接 到 一 台 计 算 机 并 同时 使 用 它 。 于 是 ,计算机 科学 家 开始 人 研究 分 时 系 
统 。 分 时 系统 是 将 CPU 的 运行 时 间 分 为 很 小 的 时 间 上 请， 多 个 用 户 任务 可 以 通过 交 符 占有 时 
间 搬 的 方式 实现 快速 交互 使 用 CPU。 由 于 时 间 捕 是 很 短 的 一 段 时 间 ， 以 至 于 每 个 用 户 任 务 、 
每 个 用 户 好 像 在 独占 CPU， 独 占 整个 计算 机 系统 。 在 研究 人 员 的 不 懈 努 力 下 ，1969 年 ， 
AT&T 公司 贝尔 实验 室 开发 出 了 UNIX 操作 系统 。 

1986 Æ, ZZW RAESEK AY Andrew Tanenbaum 教授 为 了 给 学 后 讲授 《计算 机 操作 系 
统 》 课 程 ， 开 发 出 了 Minix 操作 系统 ， 这 是 UNIX 操作 系统 的 一 个 变 体 。1991 Æ, Andrew 
Tanenbaum 教授 的 学 生 Linus Torvalds, Hi FX RÆ Ef FH BJ Minix 操作 系统 不 太 满 意 ， 于 是 
开始 在 80386 PC 上 试 着 改进 Minix 操作 系统 。 

1991 年 8 H, Linus Torvalds 在 comp. os. minix 新 闻 组 贴 上 了 以 下 这 上段 话 : “你 好 ， 所 
有 使 用 Minix 操作 系统 的 人 ， 我 正在 为 80386(486) AT 做 一 个 免费 的 操作 系统 ， 只 是 为 了 
BE, e. 

Linus 最 初 为 目 己 的 这 和 套 系 统 取 名 为 ffeax， 他 将 源 代 码 放 在 了 分 兰 的 一 个 FTP 站 点 上 供 
大 家 下 载 。 该 站 点 的 管理 员 认 为 这 个 系统 是 Linus 的 Minix 系统 ， 因 此 建立 了 一 个 名 为 Linux 
的 文件 夹 来 存放 它 。 于 是 ，Linus 的 “爱好 ”就 成 了 今天 微软 公司 的 头号 对 手 ， 功 能 强大 且 
价格 低廉 的 Linux 操作 系统 。 

1993 年 年 底 至 1994 年 年 初 ，Linux 1. 0 操作 系统 终于 诞生 了 | 

Linuxl. 0 操作 系统 已 经 是 一 个 功能 完备 的 操作 系统 ， 而 且 内 核 写 得 系 凑 、 高 效 ， 可 以 充 
分 发 挥 便 件 的 性 能 ， 在 4MB 内 存 的 80386 机 需 上 也 表现 得 非常 好 ， 至 今 人 们 还 在 津津 乐 道 。 


3.1.2 Linux 操作 系统 的 开发 模式 


Linus F 1991 年 10 月 5 日 发 布 了 Linux 操作 系统 的 第 一 个 版 本 Linux 0.0.2， 并 在 网 络 
上 公布 了 Linux 操作 系统 核心 程序 的 源 代 码 ， 同 时 诀 定 以 GPL( 大 众 所 有 版 权 , 又 称 GUN 38 
用 公共 许可 证 ) 的 方式 来 发 行 传播 ， 也 就 是 说 这 个 软件 允许 任何 人 以 任何 形式 进行 修改 和 
传播 。 

随 着 网 络 的 日 益 感 行 ， 越 来 越 多 的 技术 高 超 的 程序 员 加 入 到 Linux 操作 系统 的 开发 与 完 
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善 中 来 。 在 这 个 过 程 中 ， 无 数 的 富有 个 性 和 开创 性 的 程序 员 在 没有 计较 任何 酬劳 的 前 提 下 ， 
完全 自发 地 加 入 到 开发 行列 中 来 。 一 旦 一 个 程序 员 完 成 了 其 中 的 部 分 程序 ， 他 便 会 立即 将 这 
个 程序 发 表 ， 并 人 免费 将 它 发 给 任何 一 个 需要 的 人 ， 而 其 他 的 一 些 程 序 员 人 研究 它 后 将 会 对 它 修 
正和 改 恨 ,然后 将 它 发 表 。 这 样 的 过 程 周而复始 ， 因 此 Linux 操作 系统 的 改进 速度 是 最 快 
的 ， 同 时 它 的 稳定 性 也 是 非常 高 的 。 所 以 ，Linux 操作 系统 并 非 仅 由 Linus 一 人 开发 ， 而 是 
由 全 世界 很 多 个 程序 员 共 同 开 发 ， 当 然 Linus 为 内 核定 了 “调子 ”。 这 种 集 市 型 的 开发 模式 
促成 了 Linux 操作 系统 的 繁 宁 。 可 以 说 ，Linux 操作 系统 完全 是 一 个 热情 、 目 由 、 开 放 的 网 
络 产物 。 


3.1.3 Linux 操作 系统 的 发 展 


Linux 操作 系统 具有 民 好 的 兼容 性 和 可 移植 性 。 大 约 在 1. 3 版 本 之 后 ，Linux 操作 系统 开 
始 向 其 他 硬件 平台 上 移植 ， 包 括号 称 最 快 的 CPU 一 一 Digital Alpha。 所 以 不 要 总 把 Linux 操作 
系统 与 低档 便 件 平台 联系 到 一 起 ，Linux 操作 系统 只 是 将 便 件 的 性 能 充分 发 挥 出 来 而 已 。 
Linux 操作 系统 必 将 从 低 病 应 用 模 扫 到 高 端 应 用 ! 

为 了 使 Linux 操作 系统 变 得 容易 使 用 ，Linux 操作 系统 也 有 了 许多 发 布 版 本 ,发布 版 本 
实际 上 就 是 一 整套 完整 的 程序 组 合 。 现 在 已 经 有 许多 不 同 的 Linux 操作 系统 发 行 版 和 各 目的 
版 本 号 ， 为 了 不 产生 混淆， 先 解 释 一 些 常 提 到 的 术语 。 当 人 们 提 到 的 “Linux” 时 ,一 般 是 
指 “Real Linux”, BIN, ÆA UNIX 操作 系统 的 “心脏 ”。 但 光 有 Linux 并 不 能 成 为 一 
个 可 用 的 操作 系统 ， 还 需要 许多 软件 包 、 编 详 硕 、 程 序 库 文件 、Xwindow 系统 等 。 因 为 组 合 
AAT, MEP MAA], MARA SV AT) AY Linux 操作 系统 发 行 版 。 

越 来 越 多 的 公司 在 Linux 操作 系统 上 开发 商业 软件 或 把 其 他 UNIX 操作 系统 平台 的 软件 
移植 到 Linux 操作 系统 上 来 。 如 今 很 多 IT 业界 的 “大 胶 ”， 如 IBM, Intel, Oracle, Infomix, 
Sysbase, Corel, Netscape, CA, Novell 等 公司 都 宣布 支持 Linux 操作 系统 。 商 家 的 加 盟 弥补 
了 纯 目 由 软件 的 不 足 和 发 展 障碍 ，Linux 操作 系统 迅速 普及 到 广大 计算 机 爱好 者 范围 ， 并 且 
进入 商业 应 用 ， 成 为 打破 某 些 公 司 形成 垄断 的 希望 所 在 。 

Linux 操作 系统 是 爱好 者 们 通过 互联 网 协同 开发 出 来 的 ， 当 然 它 的 网 络 功能 十 分 强大 。 
比如 可 以 通过 FTP, NFS FRR Linux FRYE ARS, HAE RI SS, ME Linux 操作 系统 
的 发 展 ， 衍 生出 来 的 应 用 恐怕 出 乎 Linus 本 人 最 初 的 预料 ， 如 有 人 用 它 来 做 路 由 需 、 有 人 来 
fit ASL AS. ADORE ITE ARS HA TF TAL Linux 操作 系统 能 做 什么 ?其实 它 不 像 那 
些 中 看 不 中 用 的 操作 系统 ， 不 在 于 你 用 它 能 干什么 ， 而 在 于 你 想 干什么 。 

Linux 操作 系统 是 一 个 在 PC 上 运行 的 UNIX 操作 系统 。Linux 操作 系统 具有 最 新 UNIX 
操作 系统 的 全 部 功能 ， 包 括 真正 的 多 任务 、 虚 拟 存储 、 共 至 库 艺 数 、 即 时 负载 、 优 越 的 存储 
EEFI TCP/IP, UUCP 网 络 工 具 等 。Linux 操作 系统 及 其 发 展 均 符合 Posix 标准 ， 其 内 核 支 
持 Ethernet, PPP, SLIP, NFS, AX.25, IPX/SPX( Novell) , NCP( Novell) 等 。 系 统 应 用 包括 
Tellnet, Rlogin, FTP, Mail, gopher, talk, term, news(tin,tmn,nn) 等 全 套 UNIX 操作 系统 工 
具 包 。X 图 形 库 ， 包 括 xterm, fvwm, xxgdb, mosaic, xv, gs, xman 等 全 部 X-Win 应 用 工 
具 。 商 业 软 件 有 Motif、WordPerfect。 中 文 工 具 已 有 Cxterm, celvis, cemasc, cless, hztty, 
cytalk 、ctalk 、cmail 等 ， 可 以 处 理 GB, 、BIG5 HZ 文件 。 此 外 还 有 DOS 模拟 软件 ， 可 以 运 
行 DOS/Windows 操作 系统 下 的 软件 。 
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在 开始 的 时 候 ，Linux 操作 系统 只 是 个 人 狂热 爱好 的 一 种 产物 。 但 是 现在 ，Linux 操作 系 
统 已 经 成 为 一 种 受到 广泛 关注 和 文 持 的 操作 系统 。 和 其 他 的 商用 UNIX. 操作 系统 相 比 ， 作 为 
目 由 软件 的 Linux 操作 系统 具有 低 成 本 、 安 全 性 高 、 更 加 可 信赖 的 优势。 下 到 今天 ，Linux 
操作 系统 已 经 成 为 一 个 功能 完善 的 主流 网 络 操作 系统 。 


3.2 Linux 操作 系统 常用 的 shell 命令 








3.2.1 基本 命令 
1) 立即 关机 并 重 局 动 ， 执 行 如 下 命令 : 


shutdown -r now 

或 者 reboot 

2) 立即 天 机， 执行 如 下 命令 : 

shutdown -h now 

或 者 poweroff 

3) 等 竺 2min 关机 并 重启 动 ， 执 行 如 下 命令 : 

shutdown -r 2 

4) 等 待 2min 关机 ， 执 行 如 下 命令 : 

shutdown -h 2 

5) 使 用 当前 用 户 的 历史 命令 ， 执 行 如 下 命令 : 

history 

将 会 显示 使 用 过 的 每 条 命令 及 其 序号 ， 可 利用 序号 重复 执行 该 命令 。 例 如 输入 ! 1 并 回 
车 ， 将 会 重复 执行 第 1 条 历史 命令 。 也 可 用 上 下 光标 键 调 出 某 条 历史 命令 ， 然 后 按 回 车 键 重 
复 执行 。 还 可 用 上 下 光标 键 调 出 某 条 历史 命令 ， 修 改 后 按 回 丰 键 执行 。 

6) 清除 当前 用 户 的 历史 命令 ， 执 行 如 下 命令 : 

history -c 

此 时 用 向 上 光标 键 将 会 调 不 出 任何 历史 命令 。 

7) 命令 提示 键 “TAB”: 输入 命令 开头 一 个 或 几 个 字母 ， 然 后 按 1 次 “TAB” 键 ， 系 
统 会 自动 补 全 能 够 识别 的 部 分 ， 再 按 1 次 “TAB” 键 ,系统 显示 出 符合 条 件 的 所 有 命令 供用 
户 选 择 。 

例如 输入 group 后 按 两 次 “TAB” 键 ， 将 会 显示 以 group 开头 的 所 有 命令 。 

8) 显示 内 核 版 本 号 ， 执 行 如 下 命令 : 

注意 : 内 核 版 本 号 不 同 于 软件 发 行 版 本 号 。 例 如 ，RHEL 5.4 的 内 核 版 本 号 是 2. 6. 18- 
164. e15 ， 软 件 发 行 版 本 号 是 5. 4。 

9) 清除 屏幕 ， 执 行 如 下 命令 : 





























clear 
10) 显示 操作 系统 时 钟 ， 执 行 如 下 命令 : 
date 
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11) 加 载 光 盘 到 /media， 执 行 如 下 命令 : 

mount /dev/cdrom  /media 

12) 翻 载 光盘 ， 执 行 如 下 命令 : 

umount /dev/cdrom 

或 者 

umount /media 

TER: 不 要 在 /media 或 其 子 目 录 中 执行 此 命令 ， 否 则 将 会 出 现 “ 设 备 忙 错误 ”。 
13) 查看 存储 设备 ， 执 行 如 下 命令 : 

fdisk-1 

14) 加 载 U 盘 到 /media， 执 行 如 下 命令 、 

mount /dev/sdbl /media 

15) R U 盘 ， 执 行 如 下 命令 : 

umount /dev/sdbl 

或 者 

umount /media 

注意 : 不 要 在 /media 或 其 子 目 录 中 执行 此 命令 ， 否 则 将 会 出 现 “ 设 备 忙 错误 ”。 
16) ‘Pt shell 命令 ， 执 行 如 下 命令 : 

Ctrl + C 


3.2.2 文件 目录 操作 命令 


1) 显示 当前 的 绝对 路 径 ， 执 行 如 下 命令 : 

pwd 

2) 改变 当前 目录 ， 执 行 如 下 命令 : 

cd /etc/yum 

将 会 把 当前 目录 改 为 /etc/yum。 

3) 回 到 当前 上 日 录 的 父 卓 录 ， 执 行 如 下 命令 : 

cd .. 

4) 创建 目录 ， 执 行 如 下 命令 : 

mkdir /usr/tigger 

5) 删除 目录 ， 执 行 如 下 命令 : 

rmdir /usr/tigger 

注意 : 使 用 rmdir 命令 时 ， 行 删除 的 目录 必须 为 空 。 

6) 列 出 目录 中 的 内 容 ， 执 行 如 下 命令 : 

ls / 

7) 列 出 目录 中 的 所 有 内 容 (包括 隐藏 文件 或 称 为 点 文件 ) ， 执 行 如 下 命 

ls /root -a 

将 会 看 到 以 “. ”开头 的 文件 名 ,它们 称 为 点 文件 。 大 用 命令 “ls /root” 命 令 是 看 不 
到 它们 的 。 

8) 用 长 格式 列 出 目录 中 的 内 容 ， 执 行 如 下 命令 : 

















n 
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ls /boot -l 

注意 : 在 Linux 操作 系统 中 ， 寿 某 命令 有 几 个 开关 ， 可 将 这 几 个 开关 合并 在 一 起 。 例 
WU, me "ls -a -]” 与 命令 “ls -al” 或 者 “ls -la” 作 用 相同 。 

9) 创建 空 文件 ， 执 行 如 下 命令 : 

touch /a. dat 

10) 复制 文件 ， 执 行 如 下 命令 : 

cp /etc/host. conf /root 

将 会 把 目录 /etc 中 的 文件 host. conf 复制 到 目录 /root 中 ， 文 件 名 不 变 。 

11) 复制 整个 子 目 录 ( 不 改变 目录 名 ) ， 执 行 如 下 命令 : 

cp -r /usr/include /root 

将 会 把 整个 子 目录 /usr/include( 不 改变 上 日 录 名 ) 复 制 到 目录 /root 中 。 

12) 复制 整个 子 日 录 ( 改变 日 录 名 ) ， 执 行 如 下 命令 : 

cp -r /usr/include /root/include2 

将 会 把 整个 子 目 录 /usr/include 复制 到 目录 /root 中 ， 并 将 目录 名 从 include 改 为 in- 
clude2 , 

13) 移动 文件 或 给 文件 改名 ， 执 行 如 下 命令 : 

给 文件 改名 : 

mv /root/host. conf /root/ myfile 

移动 文件 : 

mv /root/myfile / 

移动 文件 同时 改名 : 

mv /myfile /root/myfile2 

14) 删除 文件 ， 执 行 如 下 命令 : 

rm /root/myfile2 

按 “y” 键 确认 。 

rm -f /a. dat 

不 需 确认 。 

15) 删除 非 空 目录 ， 执 行 如 下 命令 : 


mkdir /root/mysub  /root/mysub/new 


























rmdir /root/mysub 

系统 提示 日 录 非 空 。 

rm -rf /root/mysub 

系统 无 错误 提示 。 

ls /root 

将 看 到 目录 /root 中 已 经 没有 mysub 目录 。 

16) 分 屏 显 示 文 件 内 容 ， 执 行 如 下 命令 : 

more /etc/services 

按 空 格 键 显 示 下 一 屏 ， 按 “q” 键 返回 命令 行 状态 。 

注意 : more 作为 管道 命令 时 ， 可 与 其 他 一 些 命 令 结合 ,例如 : 
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ls /etc | more 

history | more 

17) 显示 文件 内 容 ， 执 行 如 下 命令 : 

cat /etc/services 

18) 合并 文件 ， 执 行 如 下 命令 : 

cat /etc/resolv. conf /etc/yum. conf >/b. dat 

执行 如 下 命令 进行 验证 : 

ls -| 7b. dat 

显示 该 文件 长 度 为 814B。 

也 可 用 两 条 命令 实现 同样 的 功能 : 

cat /etc/resolv. conf >/c. dat 

此 时 该 文件 长 度 为 26B。 

cat /etc/yum. conf > >/c. dat 

此 时 该 文件 长 度 为 814B。 

注意 : > 和 > > 是 重 定 回 符 号 ， 右 重 定 加 的 文件 已 经 存在 ， 则 使 用 > HHI ANA E s 
原来 的 内 容 ， 而 使 用 > > 时 将 用 新 内 容 添 加 到 原来 内 容 的 后 面 。 


3.2.3 vi 编辑 器 


创建 或 修改 某 一 文本 文件 ， 执 行 如 下 命令 : 

vi /b. dat 

vi Fa AA WPR: 命令 模式 和 编辑 模式 。 

vi 启动 后 进入 的 是 命令 模式 ， 在 命令 模式 中 按 “i” 键 就 可 以 进入 编辑 模式 。 在 编辑 模 
式 中 按 “Esc” 键 就 可 以 返回 到 命令 模式 。 

按 i 键 后 开始 编辑 。 编 辑 完成 后 ， 按 “Esc” 键 返回 到 命令 模式 ,， 输入“. wq” 后 按 回 
车 键 保存 文件 后 退出 ; 或 者 输入 “: q!” 后 按 回 车 键 不 存盘 退出 。 

若 要 删除 光标 所 在 行 ， 则 先 返回 到 命令 模式 ， 再 按 两 次 “d” 键 。 符 要 删除 从 光标 所 在 
行 开 始 向 下 的 若干 行 ,例如 5 行 ， 则 先 返 回 到 命令 模式 ， 按 “5” 键 ， 再 按 两 次 “d” 键 。 
删除 的 内 容 同 时 进入 vi 缓冲 区 。 

若 要 将 vi 缓冲 区 的 内 容 粘贴 到 当前 位 置 的 后 面 ， 则 先 返回 到 命令 模式 ， 再 按 “p” 键 。 

若 要 撤销 最 近 一 次 的 操作 ， 则 先 返 回 到 命令 模式 ， 再 按 “u” 键 。 重 复 按 “u” 键 可 以 
撤销 最 近 的 多 次 操作 。 

若 要 将 光标 所 在 行 复制 到 vi 缓冲 区 ， 则 先 返 回 到 命令 模式 ， 再 按 两 次 “y” 键 。 若 要 将 
从 光标 所 在 行 开 始 癌 下 的 知 干 行 ( 例 如 5 行 ) 复 制 到 vi BET, WY Sek LS aS EX, TE 
“5” 键 ,再 按 两 次 “y” 键 。 

若 要 从 当前 位 置 开 始 向 下 查找 某 一 字符 串 ， 例 如 HOSTNAME, ， 则 先 返 回 到 命令 模式 ， 
再 输入 /HOSTNAME 后 按 回 车 键 。 知 要 继续 向 下 查找 ， 则 再 输入 “7/” 后 按 回 车 键 。 

vi 在 编辑 某 一 个 文件 时 ， 会 生成 一 个 临时 文件 ， 这 个 文件 以 “. ”开头 并 以 “. swp” 结 
尾 。 正 常 退出 该 文件 自动 删除 ， 如 果 意 外 退出 例如 忽然 断 电 ， 该 文件 不 会 删除 。 此 时 手动 删 
除 该 文件 即 可 。 



































fash 
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: Set nu ESRB 
: setnonu 取消 行 号 


3.2.4 ”软件 包 安 六 命令 
1) 碍 看 所 有 已 安 厄 的 软件 包 ， 执 行 如 下 命令 


rpm -qa | more 
2) BAAR RNA PET EAT BYTE EL, DIRETTA Pp 
rpm -qa | grep net 
3) 验证 所 有 已 安 妆 的 软件 包 ， 执 行 如 下 命令 
rpm -Va 
注意 : 该 命令 会 列 出 所 有 目 从 包 安 装 后 系统 和 用 户 做 过 修改 的 文件 。 
4) 查看 已 安 疙 的 某 个 软件 包 的 用 途 ， 执 行 如 下 命令 : 
rpm -qi mnet-tools-1. 60-37. ELA. 8 
5) 查看 系统 中 某 个 文件 属于 哪个 软件 包 ， 执 行 如 下 命令 
= -qf /sbin/ifconfig 
结果 应 显示 该 文件 属于 net-tools-1. 60-102. e16. 1686, 
6) 安 疙 某 个 软件 包 ， 执 行 如 下 命令 : 
rpm -ivh Se 


注意 : -v 为 显示 信息 选项 ，-h 为 显示 进程 选项 























4.1 CentOS 操作 系统 的 安装 


4.1.1 实验 目的 


1) 熟悉 Linux 操作 系统 安装 过 程 。 
2) TB NUES E. 


4.1.2 实验 设备 


1) 便 件 : PC, 
2) AF: CentOS 5. X, 


4.1.3 实验 内 容 
在 PC 上 安装 CentOS 操作 系统 。 
4.1.4 实验 步骤 


1) 系统 版 本 : CentOS 5.5， 将 镜像 刻 成 光盘 ， 设 置 BIOS 将 CD-ROM 设置 为 第 一 启动 。 
安装 启动 界面 如 图 4-1 所 示 。 


[Fi-Hainl [F2-üptions] [F3-Generall [Fd-Eernell [F5-Rescue] 





图 4-1 OREJA 


仿 第 4 章 集群 搭建 A 
2) 通过 提示 ， 按 “ENTER” 键 进入 图 形 安 装 模 式 ， 如 图 4-2 Pra. 


: bitmap version 4.395 
TCP bic registered 


MET: Re ùj istered pro tocol fami ly Ll? 
Using IPI No-Shortcut mode 
ime: tsc clocksource has been installed, 
I: (supports 3B 51 54 35) 
Initalizing network drop monitor service 
Freeing unused kernel memory: 226k freed 
* protecting the kernel read-only data: 489k 


anaconda installer init version 11.1.2.289 starting 
Hunting proc filesystem... done 
creating -dew filesystem... done 
ounting -devepts Cunix9h pty) filesystem... done 
ounting “sys filesystem... done 
input: AT Transla ted Set Z Rey board as -celass/inpute input 
i npu t: ImPS^z2 Generic Hheel House as z;clazszi npu t # i npu t1 
trying to remount root filesystem read write... done 
mounting “tmp as ranfs... done 
running install... 
running “sbin-loader 





图 4-2 ”信息 检测 界面 
言 息 检测 ， 开 始 安 装 ， 如 图 4-3 所 示 。 


Welcome to CentOS 


CD Found f 


To begin testing the CD media before 
installation press OK. 


Choose Skip to skip the media test 
and start the installation. 


m ma 





£Tab»^4£ült-Tab?» between elements tSpace> selects | «Fiz> next screen 


K 4-3 ”选择 图 形 界面 安装 

3) 检测 安装 媒介 ， 比 如 我 们 是 用 光盘 安装 ， 即 为 检测 光盘 安装 数据 的 完整 性 ， 我 们 可 
通过 按 “TAB” 键 选择 “OK” 或 者 是 “Skip”， 这 里 选 的 是 “Skip”， 即 跳 过 。 

安装 程序 的 第 一 个 图 形 界面 如 图 4-4 所 示 。 

4) 选择 安装 时 的 语言 ， 这 里 选择 简体 中 文 ， 如 图 4-5 所 示 。 

5) 键盘 语言 ， 默 认 即 可 ， 如 图 4-6 所 示 。 

6) 这 是 一 块 新 硬盘， 没有 初始 化 ， 也 没有 分 区 ， 所 以 提示 进行 初始 化 ， 如 图 4-7 Brzn 

7) 便 盘 分 区 方案 ， 系 统 默认 是 按照 系统 定义 好 的 方式 进行 划分 ， 但 是 在 这 里 ， 选 择 手 
动 ， 如 图 4-8 所 示 。 

8) 最 简单 的 就 是 创建 两 个 分 区 ， 一 个 根 一 个 交换 分 区 ， 如 图 4-9 和 图 4-10 所 示 。 
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图 4-4 ”安装 程序 的 第 一 个 图 形 界面 


&5 CentOS 








What language would you like to use during the 
" installation process? 


Chinese(Traditional) (S) 
Croatian (Hrvatski) 

Czech (Cektina) 

Danish (Dansk) 

Dutch (Nederlands) 

English (English) 

Estonian (eesti keel) 


Finnish (suomi) 
French (Francais) 
German (Deutsch) 
Greek (EAArmaká) 
gujarati 








图 4-5 ”选择 语言 界面 





图 4-6 选择 键盘 语言 界面 


SAH sda HSE (VMware, vMware Virtual S 
20473 MB) . 


TERES EHE RE EHE UA HC BERIEUPICNERE 
EER- 


ERDAGI TESA AES 7 





DE | eee | | > Fro 


图 4-7 清除 数据 界面 
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VMware, Vea Virtual S 





Bg xS Ee 


Date 





法 加 分 区 
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图 4-9 配置 根 分 区 界面 
















| makw) | esed [win] 





| BrnEERJ4A 
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Date | 





E 4-10 配置 交换 分 区 界面 
9) Æ CentOS 中 ，3 引 导 程 序 采 用 的 是 GRUB， 如 图 4-11 所 示 。 





(a GRUB PERERA Re AE /devisda 上 * 
O XS REESE: 


AER] DURER L5 PES LS ER ENS etre arapa a | even har * BEIC SEE EE eee 
Sc 点 击 “ 宰 加 ”* LS eae + ER ee TEL" 


Eu dE DR |[ wow | 
EI Centos Jewsdal |! me | 
RD) | 


5 | S ERE PEVETRIAT GIR Pee e P ae = ee IR — Te * 
A Pee 
D RE |S RSD) 


‘Dati | | esso | fe r20] 


K] 4-11 GRUB 引导 程序 
10) 配置 网 络 连接 方式 及 主机 名 ， 如 图 4-12 所 示 。 





a CentOS 





FAL d 
BIRARE VE va FRED Pv | ae) | 


za eth DHCP Auto 


ERS 
BRS : 
可 通过 DHCP GFE) 


O FLEE 
EH 


(WE : hast.domain.com) 





> 下 一 (ND | 


m 
| 





| ane | PITT 





图 4-12 ”配置 网 络 连 接 方式 及 主机 名 
11) 选择 所 在 区 域 ， 如 图 4-13 所 示 。 








LH] eR UTC(S) 





‘Bare | eine | 


图 4-13 ”选择 所 在 区 域 
12) 为 根 用 户 root( 根 ) 设 置 一 个 密码 ， 在 这 里 root 是 系统 管理 员 拥 有 至 高 的 权利 ， 所 以 





| amaw | | e r-sw 





图 4-14 设置 根 用 户 密 码 


13) 选择 和 保 面 环境 ， 和 常见 的 有 Gnome, KDE, HEE Gnome， 如 图 4-15 所 示 。 





CentOS iL A — RAAT- PERMER TRER DUE PETRUS eet 
zT 


El Desktop- Gnome 
[] Desktop - KDE 

O Server 

L] Server - GUI 


Pee PECES ERU + 
Ll] Packages from CentOS Extras 


| (D meee | 


HARTERA Ga » ERI LUE SECBUS (PFHET FEWER a * 
© AEE (D O BEER 


| emp | 





K| 4-15 ”选择 桌面 环境 


检查 安装 时 的 依赖 关系 如 图 4-16 所 示 。 








CentOS AAU EEE Ine — Rr MAPA Re + fin] DS PER ee 
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5] Desktop = Gnome 

L] Desktop - KDE 
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图 4-16 检查 安装 时 的 依赖 关系 
14) 点 击 “ 下 一 步 ” 按 钮 正式 安装 ， 如 图 4-17 Br. 


@ CentOS 





Ah “Fit” SIRES 
Centos. 

EPISRRE: SHAE 
root/install.log X [Sci SE 
EAA 


EMSs: HSS 
root/anaconda-ks.cfg IPP 





kickstart ti * 


(Darme | | esp | [e rsen] 


图 4-17 开始 正式 安装 
接 下 来 的 步骤 如 图 4-18 ~ 图 4-24 所 示 。 
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cs CentOS 


ZEB / MARK... 


CentOS -5 


Community €NTerprise Operating System 





| DE | 


图 4-18 格式 化 文件 系统 


EE. 


EEF SERIE UII. 
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Community €MTerprise Operating System 











(Daneaw | 


图 4-19 ”开始 安装 进程 
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Welcome to CentOS 5 ! 
3 Centum 
wees Linus sri buton edi sr foam 


r i | 1 1 
fy Boved to Dep pubis by & Eromeant Homih 
ILE see nde 


w EH p iene PELLI 





es 


EGR Ss tdata-20106-1.015.noarch (1 ESR) 
HERE 


图 4-20 安装 中 





AME: FSR es = 
RHEE SiO PRS SrA: Se “EIS” BSE ISR: 





| Bare | s ddaniso | 


Probing for video card: UMuare SUGA II Adapter 
Attempting to start native X server 
Waiting for X server to start...log located in ¢tmp-ramfs-*. log 
1...2..-9...4...5... X server started successfully. 
starting graphical installation... 
Sending termination signals, . .done 
Sending Rill siqnals...done 
disabling Swap... 
“tmop-sdac 
Lnmounting Filesystems... 
fmnt/runtime done 
disabling devr loopt 
/proc^buszlusb done 
/proc done 
“devepts done 
f/sys done 
“tmup/ramfs done 
feelinux done 
“mnnt/esysimagersys done 
a done 
“nntssysimagesselinux done 
“mntssysimagesdey done 
“mntersysimage done 
rebooting system 


Al 4-22 重启 中 


Booting ‘CentOS (2.6.18-194.e15)° 


root 6thdB,HB) 
Filesysten type is ext2fs, partition type UweB3 
kerne! “boot valinuz-2.6.18-194,el5 ro root=LABEL=/ rhgb quiet 
LLinux-bzlnage, setup=Bxlebl, size=Bxic/fs4] 
initrd “boot-initrd-2.6,18-194,e15, img 
[Linux-initrd @ BxidBSfRHE, BxZBRcHd bytes] 


eanory for crash kernel (8x8 to 8x8) notwithin permissible range 


图 4-23 ”装载 内 核 
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图 4-24 启动 信息 
15) 安装 完成 后 ， 还 需要 一 些 简 单 的 配置 ， 根 据 提 示 进 行 即 可 ， 如 网 4-25 所 示 。 


p 欢迎 


see La (AEN RERE LC «ESS |S ET «Wh 
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图 4-25 进入 基本 配置 
16) 这 里 的 防火 增 是 指 iptables, KKB AEH, BMRA Tao, aA 4-26 











HIZR o 
mu Etc p | 
Biki pe 防火 墙 
SELI 
SARN SEAT EAIBHI— Tei Te EL ERA LRE S TEUA 
Hae ful RAHA RRRA RTT i) « A RE BA] LU ge] 
far | R? 
E-E | E 
ETHER: B UL eae 
TERES : 口 FTP [+] 
L] NF54 
E] SSH 
L] samba | 
[] Teinet | 
O WWW (HTTP) = 
> Reo 


| emm | | > wate | 





图 4-26 ”配置 防火 载 
17) SELinux 选项 是 更 安全 的 行为 控制 ， 设置 为 强制 ， 如 图 4-27 所 示 。 


3x38 


(E z - 
M Ee SELinux 
^ &ELiImux 
HMA Aled ja) SELinux (Security Enhanced Linux) HHA T H— Teed Linux FS 
"TT EETA ERDIDUEDEGHUBIDS RSET SRS RES: SEHE 
声卡 PAPEL ae + 


SREI- SELinux 设置 : | 强制 


1k 


| usine | | > mae | 





图 4-27 配置 SELinux 选项 
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18) 系统 时 间 一 般 不 用 设置 ， 如 图 428 所 未。 


- 日 期 和 时 间 


SE Linux 



































s WS XEBMI Hea] * 
ML il ee 
a TT | | EHNERURTIRICD | FREE TETUR Ga) 
EE | | Bm E 
Huxa | | *9we* AA t 当前 时 间 : 04:55:24 
— = 2 dió 路 时 站 六 [a E 
1 2 3 4 5 6 7 z = 
B 9 D t D B H APO: | | 
5 6 n EJ è d A = z 
: |e 3 
2 23 MM 5 3 2 Z ma | 上 
o 一 Z2 











| & Ep | | e wate | 
ES 下 





图 4-28 配置 系统 时 间 
19) 我 们 知道 ，root 拥有 最 高 的 权利 ， 所 以 让 root 登录 进去 不 太 安 人 全， 所 以 设置 一 个 普 
通用 户 ， 需 要 的 时 候 切 换 到 root， 如 图 4-29 所 示 。 


Ra 创建 用 户 


SEDE PMT RFE GEE) 的 个 人 用户 际 号 * 要 创建 个 人 了 账号， 提供 以 下 











HNOu dum] (ul [1—7 1. * 
* GERI 
EE Fas du : | | 
RN Z EQ: , | 
Hx: | 
woti : | | 


部 果 您 需 李 使 用 网络 认证 ， A Kerberos 或 NIS WA “ORRE” denn 
| BIS ERY... 








[emp | | onge | 
| SRE | | emo 
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20) 声卡 测试 没什么 用 ， 服 务 右 上 不 需要 声卡 ， 如 图 4-30 所 示 。 


de E 卡 





SE Limi 
5 Edu SE MIT 声卡 。 
m— i HE” SARE SE ME ; 第 二 
rg 人 第 三 组 声音 是 中 心声 通 * 
+ Pee 
MEXA IT HL - 


三 商 : Ensoniq 
型 骂 : ES1371[AudioPCI-97] 
B: snd:ens1l371 


Bi-E gnat 


BEIDE 
PCM if: | Es1371DAC2/ADC | 
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图 4-30 ”声卡 测试 
21) 安装 一 些 其 他 的 软件 ， 这 里 就 不 需要 了 ， 需 要 的 时 候 目 行 安 装 ， 如 图 4-31 Br. 











2 5 "xa 
SELinux a 
amna EREA 
AHF 
adr. lo 附 各 光盘 【安村 -| 
| esmee]| age | 
图 4-31 we PREC AE 
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22) 系统 登录 ， 用 刚才 创建 好 的 用 户 名 和 密码 登录 ， 如 图 4-32 所 示 。 





& Centos 


T 
bene fhe t. leaanaa DEI 


























图 4-32 系统 登录 界面 
23) 至 此 CentOS 软件 安装 成 功 ， 如 图 4-33 所 示 。 


Footslocalhost:— 
Xp SiG) EW Sa EG) MEDIO 


rootélocalhast '|7 unam 















































[d 4-33 ”安装 成 功 界 面 
24) 修改 三 台 机 天 的 也 地 址 ， 分 别 是 192.168.0. 101、192. 168. 0. 102 和 
192.168.0. 103, FT mifit 255.255. 255.0. 
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42 集群 搭建 


4.2.1 实验 目的 

1) 熟悉 Hadoop 集群 搭建 过 程 。 

2) Æe Hadoop 核心 程序 配置 方法 。 
4.2.2 实验 设备 

1) 便 件 : 云 计 算 实 验 一 体 机 、PC。 

2) 软件 : SecureCRT, FileZilla, JDK 安装 包 ，。 
4.2.3 实验 内 容 


1) 把 安装 程序 上 传 到 集群 并 有 旦 安装 JDK, 
2) 无 密 钥 SSH 登录 。 
3) 核心 程序 配置 。 


4.2.4 实验 步骤 


1. 针对 集群 中 的 所 有 机 禹 进行 配置 

1) 打开 连接 工具 SecureCRT， 如 图 4-34 ~ 图 4-36 所 示 。 
"- TEOR E JA 
Leara 2013/3/21 11:08 — Xt 

2013/3/21 11:01 J 





























图 4-34 连接 工具 





"EIE LU X 
2013/3/21 11:01 seem | 
2013/3/21 10:50. — 360FgR RAR T$ 7.860 KB 











图 4-35 SecureCRT 工具 
2) 打开 传输 工具 FileZilla， 如 图 4-37 ~ 图 4-39 所 示 。 
3) 连接 三 台 主 机 ， 点 击 第 三 个 按钮 ， 连 接 主 机 ， 如 图 4-40 Br. 
4) 选择 要 连接 的 主机 IF， 如果 之 前 没有 连接 过 ， 可 以 点 击 快 速 连接 ， 输 入 对 方 IP 地 址 
和 用 户 名 进行 连接 ， 如 图 4-41 所 示 。 
5) 输入 用 户 名 和 密码 ， 先 用 root 用 户 登 录 ， 如 图 4-42 所 示 。 
6) 三 台 主 机 登录 成 功 ， 如 图 4-43 ra, 








LL] MAPS OTL Ns ZUL S] F ZIU WANES I AT uU mO 
S migrate 2011/3/9 2:02 AREF 1,607 KB 
| msvep8O.dll 2011/3/9 2:02 应用 程序 扩展 536 KB 
| msvep90.dll 2011/3/9 2:02 应 用 程序 扩展 557 KB 
局 msver80.dll 2011/3/8 2:02 应 用 程序 扩展 612 KB 
| msver90. dll 2011/3/9 2:02 应 用 程序 扩 层 638 KB 
剧 Rlegin.dll 2011/3/9 2:02 应 用 程序 扩展 186 KB 
fe SecureCRT 2011/3/9 2:02 编译 的 HTML $F... 896 KB 
2011/3/9 2:02 应 用 程序 2782 KB 
L| SecureCRT EULA 2011/3/9 2:02 xcti 6 KB 
L'ESLurecRT. HISTORY 2011/3/9 2:02 xxn 17 KB 
| | SecureCRT Order 2011/3/9 2:02 xd inp 5 KB 
|) SecureCRT_README 2011/3/9 2:02 aS 13 KB 
kil SeriaLall 2011/83/79 2-02 fa FES ear E 200 KB 
图 4-36 SecureCRT 图 标 
ae 7 ZEE" HL TS 






2013/3/21 11:01 x op 


图 4-37 传输 工具 


EELER Sn aay 





Filla ETP Clier 2013/3/21 11:00 WHF 
MÀ FileZilla FTP Client 





2013/3/21 10:50 350 FR RAR scit 5,159 KB 
FileZilla 3.6.0.2: win32-setup 2013/3/21 11:08 — 应 用 程序 4,593 KB 
图 4-38 FileZilla 工具 
Rh eL "E AU 
2013/3/21 11:00 ieee 
2011/12/19 13:31 F#2 
i 2013/3/21 11:00 Num 
2010/11/8 6:03 mor 3 KB 
2010/11/21 22:54 应 用 程序 7,443 KB 
Mem 2010/11/21 22:54 ”应 用 程序 127 KB 
at fesftp 2010/11/21 22:54 “应 用 程序 335 KB 
sllextdll 2010/11/21 22:54 应 用 程序 扩展 92 KB 
fzshellext 64.dll 2010/1/2 22:420 应 用 程序 扩展 96 KB 
GPL 2007/11/23 19:34 — 360 se HTML Do... 16 KB 
mingwm10.dll 2010/1/2 22:42 Are 18 KB 
[Bl NEWS 2010/11/21 21:41 kri 48 KB. 
B unind 2011/12/19 13:31 ”应 用 程序 62 KB 


图 4-39 FileZilla KIR 
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图 4-40 SecureCRT 工具 界面 
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dig) 192.168.10.14 


a) 192.168.10.17 
192. 168. 10. 19 
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图 4-41 快速 连接 对 话 框 图 4-42 登录 对 话 框 





























Pere oom Wr kee 5T 9 Eh 





$ 192.168.0101 | 9 192.165.0.102 |* 192.168.0103. x | 


Last login: Sun Mar 24 21:10:55 2013 
[root@localhost ~]# Bg 


图 4-43 ”登录 成 功 
7) 新 增 用 户 hadoop。 使 用 root 账户 登录 系统 ， 添 加 用 户 : useradd hadoop; 密码 修改 . 


passwd hadoop, ， 提 示 输 入 新 密码 和 重复 输入 新 密码 ， 然 后 退出 root 用 户 ， 如 图 4-44 ~ 图 4-46 
Bra. 
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* 192, 168. 0.101 x |* 192. ue a 102 | | # 182. 168. 0. 103 





图 4-44 ”新 增 用 户 hadoop 


[root&localhost -]& passwd hadoop 
Changing password for user hadoop. 
New UNIX password: 
BAD PASSWORD: it is based on a dictionary word 
Retype new UNIX password: 
asswd: all authentication tokens updated successfully. 
Ircotelocalhost —-]* B 


图 4-45 修改 密码 


asswd: all authentication tokens up 
De hast ~]# exit 


图 4-46 退出 root 用 户 
8) 打开 会 话 选项 ， 如 图 4-47 所 示 。 


@ 1923cmaies w [Lein5icaandn2 | e 192.168.0103 






C Ctri«F4 


图 4-47 打开 会 话 选 
9) 使 用 新 建 用 户 hadoop 登录 ， 如 图 4-48 
10) 在 “用 户 名 ”里 输入 hadoop， 如 图 4-49 所 示 。 
11) 重新 连接 主机 ， 如 图 4-50 Pras. 
12) 使 用 hadoop 用 户 登 录 三 台 主 机 ， 并 保存 密码 ， 如 图 4-51 所 示 。 
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192. 168.0. 101 








K| 4-48 设置 登录 用 户 


192. 168.0. 101 








Kj 4-49 ”新 建 用 户 hadoop 





xx 


P 192.1685.0.103 





| 


EIS | x 


| AES 





imel tma 
eS 

| 连接 5FTF 标 签 交 6 
TffsecureFX(9) 


hadoop£192. 158.0. 101 — — 
c = 


AAU): hadoop 


SSE)... SEP): ELTELT wal 








K| 4-50 ”重新 连接 主机 图 4-51 用 hadoop 用 户 登 录 并 保存 密码 
13) 在 会 话 选项 中 更 改 外 观 ， 如 图 4-52 所 示 。 


SHBA) | 
[Monochrome — — à 5( 05 | (SRAM) [Sion 
字体 

标准 字体 Lucida Console 10pt 


SHELA: ETA 


STH: [Defe ~] 
园 使 用 Unicode ies D) 


光标 

光标 样式 (让 [Blok | 
OHAR: Fee)... | 

I EMO 


maus 
Aip [see o] Mm. 
样式 ， SBM OCONEE 





K| 4-52 ”更 改 外 观 
14) 将 字符 编码 改 成 UTF-S， 如 图 4-53 所 示 。 
15) Linux 操作 系统 配置 。 用 hadoop FAP 3k: 


su root 
新 建 /hadoop 目录 ， 如 图 4-54 tm: 
mkdir /hadoop 
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Tr & 
i 


i: 
a 


H 


£ 


CMEBERU: | FBR.. | 
MOO 


隐藏 关键 字 
各 (itm... | 


i: |G RRO) =| HAE) 
po Cn 


图 4-53 ”更 改 字符 编码 


" 
| 
Led 
| E 
= 
L 


j 





[hadoop$localhost /1* su root 
mL 
[root@localhost /J# 


14-54 ”新 建 /hadoop 目录 
使 用 1 /命令 查看 是 否 创 建成 功 ， 如 图 4-55 所 示 。 


pacem ocaTtos: 4 mkdir /hadoop 
root@localhost /IF 11 / 
irr 154 

rwxr-xr-x £ root root 4096 03-22 01:50 bin 
drwxr-xr-x 4 root root 1024 03-20 01:18 boot 
dr'wxr «xr =x root | 03-24 z dev 











drwxr-xr-x 11 root root 4096 023-22 01:50 


z lib 
drwxr-xr-x 7 root root 4096 03-22 01:50 Tib 
drwx------ 2 root root 16384 03-20 01:16 lost+found 
drwxr -xr-x 3 root root 4096 03-24 21:10 media 
drwxr-xr-x 2 root root 0 03-24 21:06 misc 
drwxr-xr-x 2? root root 4096 2010-01-27 mnt 
drwxr-xr-x 2 root root 0 03-24 21:06 net 
drwxr-xr-x 2 root root 4096 2010-01-27 opt 
dr-xr-xr-x 168 root root 0 03-24 21:05 proc 
drwxr-x--- 16 root root 4096 03-24 21:19 root 
drwxr-xr-x 2? root root 122788 03-22 01:50 sbin 
drwxr-xr-x 4 root root O 03-24 21:05 selinux 
drwxr -xr-x 2 root root 4096 2010-01-27 srv 
drwxr-xr-x 11 root root 0 03-24 21:05 sys 


drwxrwxrwt 11 root root 4096 03-24 21:10 tmp 
drwxr-xr-x 15 root root 4096 03-20 01:17 usr 
drwxr-xr-x 21 root root 4096 03-20 01:20 var 
[raot&localhost /]4 


Kj 4-55 ”使 用 1 命令 查看 是 否 创建 成 功 
16) 然后 授权 给 hadoop 用 户 ， 如 图 4-56 所 示 : 





A 228% 基础 实践 部 分 A 


chown -R hadoop: hadoop /hadoop 


Pee ea he AH chown -& hadoop:hadoop /hadoop/ 
| 


& 11/ 








rootelocalhost / 


drwxr-xr-x 2 root root 
|drwxr -xr -X 4 root root 
|drwxr -xr-x 13 root root 






drwxr-xr-x 11 root root 
|drwxr-xr-x T root root 
drwx------ 2 root root 
drwxr-xr-x i root root 
drwxr -xr =x 2 root root 
'drwxr-xr-x 2 root root 
'drwxr -xr -x 2 root root 
drwxr-xr-x 2 root root 
idr-xr-xr-x 168 raat root 
drwxr-x--- 16 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 4 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 11 root root 
ldrwxrwxrwt 11 root root 
Idrwxr -Xr -X 15 root root 
Idrwxr-xr-x 21 raat root 
[root&localhost /]4 








4096 03-22 01:50 bin 
1024 03-20 01:18 boot 
j980 03-24 21:06 dev 






4096 03-22 01:50 Tib 
4096 03-22 01:50 Tibet 
16384 03-20 01:16 lost+found 
4096 03-24 21:10 media 
D 03-24 21:06 misc 
4096 2010-01-27 mnt 
0 03-24 21:06 net 
4096 2010-01-27 opt 
0 03-24 21:05 proc 
4096 03-24 21:19 root 
12288 03-22 01:50 sbin 
Q 03-24 21:05 selinux 
4096 2010-01-27 srv 
Q 03-24 21:05 sys 
4086 03-24 21:10 tmp 
4096 03-20 01:17; usr 
4096 03-20 01:20 var 


图 4-56 ”授权 给 hadoop 用 户 
17) 修改 主机 名 ， 和 暂时 性 修改 主机 名 ( 重 司 就 会 消失 ) ， 如 图 4-57 Bron : 


hostname $ name( master/slavel /slave2 ) 


备注 : 其 中 $ name 的 值 为 要 修改 的 主机 名 。 


Hee ea ai: i 
root@localhost / 


18) 从 文件 中 更 改 主机 名 ， 如 图 4-58 Brzn : master 


vim /etc/sysconfig/ network 


把 文件 里 HOSTNAME 的 值 修改 为 刚才 的 $name ( mas- 


ter/slavel/slave2) ， 如 图 4-59 Ara. 


master 








[root&localhost /]4 vim /etc/sysconfig/networklg 


图 4-58 ”从 文件 中 更 改 主机 名 





| HETWORKINGsyes 


NETWORKING IPV6sno 
BosTNAME- localhost. localdomain 





[NETWORKINGeyées 
|NETwWORKING IPV6msno 


| 


|HOSTNAMEsmaster 




















UP WX -XFP-X £L TUUL roo 
ees Lucr /]* hostname 
acalhost. localdomain 


auo | 


i hostname master 


& hostname 


[root&localhost /j# p 


K| 4-57 ”修改 主机 名 


图 4-59 ”把 文件 里 HOSTNAME 的 值 修改 为 刚才 的 $$ name( master/slavel/slave2 ) 


19) 查看 修改 是 否 成 功 : 

hostname 

是 否 输出 为 修改 的 $name。 

20) XHK, Wl 4-60 Bron : 
/etc/init. d/iptables stop 

备注 : 关闭 当前 防火 墙 。 
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: : . ] 
/sbin/ service iptab ae [root@localhost 7] , /etc/init. d/iptables stop 
root&localhost |F S Veee iptables stop 


备注 : 关闭 防火 墙 服务 。 rootélocalhost / 
21) 验证 时 关闭 防火 墙 = 

/etc/init. d/iptables status 图 4-60 关闭 防火 墙 
验证 防火 墙 服务 是 否 停 止 ， 如 图 4-61 所 未: 

/sbin/service iptables status 


22) 退出 root HF, WKI 4-62 所 示 。 


froot@localhost /j# /etc/init.d/iptables status 





root&localhost /]& /sbin/service iptables status {roct@localhost /]4 exit 
die pud exit 
rootélocalhost /]4 E [hadoop@localhost /]5 

图 4-61 验证 防火 墙 服 务 是 否 集 止 图 4-62 退出 root 用 户 


23) 在 部 署 前 ， 上 面 所 说 的 Windows Server 需要 简单 地 配置 一 下 ， 首 先 修 改 C: V Win- 
dows V System32 V drivers V etc V hosts 文件 ， 把 master 和 slaves 的 IP 和 主机 名 称 写 在 这 里 ， 一 
侣 一行， 示例 如下: 

192. 168. 0. 101 master 

192. 168. 0. 102slavel 

192. 168. 0. 103slave2 

这 样 确保 这 人 台 Windows Server 可 以 正确 识别 这 些 主机 名 称 ， 如 图 4-63 所 示 。 





sR FREM BE A 





Ell hosts 2013/3/19 16:37 — fHiCEH ikB 
lira | 
: (Fr) SENE) ESUO) ma) = AH 
国 protocol |/# The IP address and the host name should be separated by at least one 
E services : space, 
F Additionally, comments (such as these) may be inserted on individual 
# lines or following the machine name denoted by a '&' symbol. 
# 
# For example: 
# 
# 102.54. 94. 97 rhino. ache; com Ë source server 
# 38.25. 63. 10 x. acme. com # x client host 
== # localhost name resolution iz handled mithin DNS itself. 
eu # 121. 0.0. 1 localhost 
pj calhost 
132. 168. ü. 101 master 
EJ 192.168.0.102 slavel 
(G) 182.163.0.103 slave? ji 





K] 4-63 配置 Windows Server 
24) 安装 JDK( 版 本 必须 是 1.6 以 上 ) ， 配 置 Windows Server 如 图 4-64 所 示 。 
25) 连接 master( 主机 ) ， 传 输 jdk 安装 包 ， 如 图 4-65 所 示 。 








| M(H): master MAAU): hadoop FEW): eee WOP): 22 


K| 4-64 配置 Windows Server 





1 计算 服务 器 时 总 .… 
es mitime ".bash profile" 
+ 1364131137 


惠 出 目录 成 功 








2013/3/24 21.. drwour-xr-x 

33 BASH LO..  2013/3/24 21.. -rmw-r-r--  hadeop kh... 
176 BASH PR.  2013/3/24 21. -rw-r--r-- hadoap h... 
124 BASHRC..  2013/3/24 21.. -rw-r-r--  hadeop h.. 






2013/3/18 14:53; 


ue ettet pepe 2013/3/13 9:54:58 
2013/3/19 16:08... 






KI 4-65 ”传输 jdk 安装 包 
26) 为 了 方便 看 出 文件 的 权限 ， 在 会 话 选 项 中 设置 终端 为 “Linux”， 如 图 4-66 和 图 


4-67 所 示 。 





Cae J| m | 


[kd 4-66 设置 终端 
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图 4-67 设置 终端 为 “Linux” 
27) 外 观 中 设置 当前 颜色 方案 为 “Tradtional”， 如 图 4-68 和 图 4-69 所 示 。 





oe aa Lucida Console 1l0pt 
[HR GA) (FRO. | 
[s BERI] Unicode SEARS ee s D) 


ONSE OG 





图 4-68 设置 当前 颜色 方案 
28) 看 一 下 是 否 复制 成 功 ，cd ~/ 先 到 根 文件 目录 下 ,1 查看 文件 ， 如 图 4-70 Bras. 
29) 进入 到 root 用 户 ，su root, 移动 文件 到 /usr/local/ 下 安装 ，mv jdk-6u30-linux-i586- 
rpm. bin /usr/local/, ， 如 图 4271 所 示 。 








dEEEENT- 192.168.0.101 = 
EB): 
| gd | BOREIA 
登陆 动作 二 二 
-1- 55H2 
| 高 级 
||| ene j 
|| eun n cese ë M o0 
T ls | 1 1 = P 1 z Wl 
Ennes SESH): ura z] 
im F) 使 用 Unicode (Eb) 
= SER "m 
| an ME eu uu 
Bex Xie | =] 
Xin 二 
kY /Zmodem ,si 
Baum 
名称 [eene ee 























样式 : 6S RRR) Ui 


| wm || ma 





图 4-69 ”设置 当前 颜色 方案 为 “Tradtional” 


[hadoop&localhost /]$ cd a 
-I lor alhoast -|$ 11 


1 ooo hadoop 806106875 03-24 21:32 jdk-6u30-1]inux-i1586-rpm. bin 
oca ST -]$ 

















K| 4-70 查看 是 否 复制 成 功 





[hadoop® ocalhost ~]$ su root 
= e = 


lrootémaster hadoopis mv jdk-6u30-linux-1586-rpm. bin |/usr/ local, 
lroot@master hadoop|# 





图 4-71 进入 到 root 用 户 
30) 看 一 下 是 否 移动 成 功 ，cd /usr/local, U 查看 文件 ， 如 图 4-72 所 示 。 











图 4-72 看 一 下 是 否 移动 成 功 
31) 授权 给 这 个 文件 可 执行 权限 ，chmod +x jdk-6u30-linux-i586-rpm. bin, Il, WHK] 4-73 
BIZ o 


32) X JDK,  ./ jdk-6u30-linux-i586-rpm. bin, KI 4-74 所 示 。 
等 待 …， 如 图 4-75 所 示 。 


74 


Lit T2 Ae Ea | QE PLA JO LUA a 
[rootgmaster local]& chmod «x jdk-6u30-linux-1586-rpam. bin 
[roort@master localj|* [Ii 

- FOOT rO 

2 root 

2? root 


2010- "m 


rst t 
hadoop hadoop 80810 
? FOOL root 
drwxr-xr-x 2 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 2 root root 
dr exP-XP-X TODE root 
drwxr-xr-x 2 root root 
[root@master local] 


Sono LP p 
[ [un | 


drwxr-xr-x 2 root root 
[root@master local|#. S dk-6u30- Tinux-1586-rpa. bin | 





图 4-74 安装 JDK 


Unpac king.. 
checksumming. 
Extractin ig. 
unzipsFX 5. 50 of 17 February ' 2002, by info-ziP (zip-Bugsalists.wku.edu). 
inf lating: jdk=-6u 30-linux=4 586 rpm i 
inflating: sun-javadb-common- 10. 5. t- -1. i386. rpm 
inflating: sun-javadb- core-10. 6- 2-1.1. 1386. rpm 
inflating: sun javadb-client-1 1, 1386. rpm 
inflat ing: iy ERU I ELIT 10. 6. FERT 1 1386.rpm 
inflating: sun-javadb-docs-10. 6.2-1.1. i386.rpm 
inflating: sun-javadb-javadoc-10.6.2-1.1. 1386. rpm 
Preparing... POOP POC eee [1003] 
1 ; jak PPP Peete Pere er rer. ee rr er er er eg [1005 | 





475 等待 … 
33) KREW, UNA 4-76 所 示 。 


For more information on what data Registration collects and 
how it 15 managed and used, see: 
http: //java. sun, com/ javase/registration/ JDKRegistrationerivacy. html 


Press Enter to continue..... 
A[ [6- 


Done, 
[rooteémaster local]4 J 





图 4-76 ”安装 完成 
34) 退出 root，exit， 如 图 4-77 所 示 。 
35) 安装 成 功 后 ,设置 系 统 环 境 变 量 ， 编 辑 bash-profile 文件 ，vim -/. bash_profile, 4 
图 4-78 JAN. 





[hadoop@localhost ~]$ vim —/.bash profile J 


[rootamaster local] exit 





exit 


图 4-77 退出 root 图 4-78 ”编辑 bash_profile 文件 
36) 在 文件 的 最 后 面 加 入 以 下 行 
#set Java environment 
JAVA, HOME = /usr/java/jdk1. 6. 0. 30 
PATH =$ JAVA, HOME/bin: $ PATH 
CLASSPATH = $ CLASSPATH; . : $JAVA_HOME/lib 
export JAVA. HOME CLASSPATH PATH 
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37) 最 后 ， 退 出 hadoop 用 户 ， 重 新 登录 hadoop, ， 检 验 java 是 否 安 认 成功， 如 图 4-79 所 示 : 
java-version 


TT - bash profile" 17L, 32€ 
如 果 输 出 java version" 1.6.0. 30" 等 一 系列 信息 ， 则 FR SUME 








er Y ee aan uod 
表示 安装 成 功 ， 如 图 4-80 所 示 。 li iiia lbid 
38) 修改 ulimit 数量 ， 进 入 root H1 P! , vim /etc/securi- n —: 
Em 4-79 mU 安装 成 了 
ty/limits. conf， 如 图 4-81 Ara. did E 





图 4-80 ”安装 成 功 





图 4-81 进入 root FAP 
39) 修改 其 内 容 ， 在 文件 最 后 加 入 (数值 也 可 以 目 己 定义 ): 
* soft nofile 10240 
* hard nofile 10240 


40) vim /etc/profile， 修 改 其 内 容 ， 在 最 后 加 入 图 4-82 和 图 4-83 所 示 内 容 。 





图 4-82 修改 内 容 图 4-83 ”加 入 内 容 
41) 退出 root 用 户 ， 然 后 重新 登录 hadoop, FA ulimit-n 命令 验证 ， 如 图 4-84 所 示 。 
以 上 是 针对 集群 中 的 所 有 机 各 进行 的 配置 。 如 在 不 需要 做 时 间 同 步 服务 硕 ， 则 至 少 应 该 
保证 所 有 集群 的 时 间 相 差 无 几 。 
2. 无 密 钥 SSH 登录 
1) 首先 修改 /etc/hosts 文件 ， 所 有 的 机 句 上 都 需要 修改 。 
进入 root 用 户 ， 如 图 4-85 所 示 : 











图 4-84 FA ulimit -n 命令 验证 图 4-85 进入 root 用 户 
su root 
vim /etc/ hosts 
Vs JL TEE ERR B] Ls IP 和 主机 名 称 ， 如 图 4-86 所 示 。 
osts 文件 ， 所 有 的 机 需 上 都 需要 修改 ，vim /etc/hosts( 三 人 台 机 和 需 都 需要 操作 ) 。 
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图 4-86 添加 集群 里 所 有 的 机 融 IP 和 主机 名 称 
2) 切换 到 master， 退 出 root HF. 
使 用 hadoop 用 户 执 行 ， 如 图 4-87 Brzn 
ssh-keygen -t dsa 
一 路 回 车 下 去 (三 人 台 机 硕 都 需要 操作 ) 。 此 时 会 在 ~/. ssh 目录 下 生成 一 对 密 钥 ， 一 个 公 
钥 id. dsa. pub, 一 个 私 钥 id_dsa， 需 要 把 公 角 复制 到 其 他 slave( 27 P 9m) EX. 





图 4-87 使 用 hadoop 用 户 执 行 
3) scp id_dsa. pub slave * : ~/. ssh/master. pub 





其 中 的 slave * 代表 的 是 每 台 slave 的 主机 名 ， 如 图 4-88 所 示 。 





Russ ap das pub slaves: =A sh mater pub 
4) 然后 需要 合并 文件 ， 就 是 把 公 钥 文件 id. dsa. pub 与 和 人 到 authorized, keys 文件 里 ， 这 
样 服务 融 才 可 以 验证 密码 的 有 效 性 ， 如 图 4-89 所 示 : 
cat id. dsa. pub > > authorized, keys 


( 只 在 master 上 操作 ) o 








图 4-89 合并 文件 
5) 然后 查看 authorized. keys 文件 的 权限 ， 如 果 不 是 600， 修 改 为 600: 
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chmod 600 authorized, keys 

(Lar ie ERE). 

o 其 他 slave E: 

cd ~/. ssh 

cat master. pub > > authorized, keys 

6) 然后 查看 authorized_keys 文件 的 权限 ， 如 果 不 是 600 ， 同 样 修改 为 600， 如 图 4-90 所 
ZW 6 





Al 4-90 ”查看 authorized_keys 文件 的 权限 
7) 最 后 回 到 master 上 ， 如 图 4-91 所 示 : 
ssh slave * 


验证 是 否 不 用 输入 密码 便 可 以 登录 到 该 slave * 上 。 验 证 成 功 后 退出 登录 的 服务 融 











K] 4-91 EIZ] master 
8) 把 3 个 包 ， 即 hadoop-1. 0. 1. tar, zookeeper-3. 3. 5. tar 和 hbase-0. 92. 1. tar 传 到 master 


上 的 hadoop 用 户 名 录 下 /home/hadoop/ 用 传输 工具 复制 ， 之 后 查看 是 否 复 制 成 功 ， 如 图 4-92 
和 图 4-93 所 示 。 





p hadoop 4096 03-24 22:17 
J hada Iop-1. 0.1 
NOBEL 


1 22:11 1 
2:31 build. xml 


l| CHANGES.TXT 
a - E = 8 2X 
z hadoop hadoop ] 
op hadoop 
oop hadoop 
LET | op 
jar 


. 0. l. jar 


==h i bt | din E a | 


| 287807 03-24 22:11 had loop- “0015-1. 0.1. 
hadoop hadoop 10613 03-24 22:11 hbasetest. jar 
nadoop GE 3-24 22:11 


ivy. xml 


1 
1 
L 

| 

1 
A. 
" 
L 

} 
1 


1 LICENSE. txt 


OTICE.txt 
Or 99898 | TU ae 3 jar 
1 hadoop hadoop 13 03-24 22:11 README. txt 
2 nadap hadoop 03-24 22:11 
+ hadoop | 
B hadoop hadoop 





图 4-92 传 3 个 包 
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onfiguration.xs 
A= Site. xml 
scheduler, xml 


Les proper tas 


cy. AM 


logd j- properties 
mapred-queue-acis 
mapred-site. xm 
masters 





图 4-93 ”查看 


9) 更 改 权 限 chmod -R hadoop-1. 0. 17, cd hadoop-1. 0. 17, ll, QU) 4-94 所 示 。 


-R 700 hado op-1.0O. 1 
PEE cd hadoop-1.0.1 
adoop-1.0.11]$ 1 


Ee D 


3 D 


ds Es ds 


E 


e, 
te 
F. 


J PAJ RR BR Fg 


IEJ 


) hadoop 





DL» Ix D» px E 
[e 


图 4-94 更改 权限 





继续 查看 下 一 层 ，cd conf/, Hl, SKI 4-95 所 示 。 








图 4-95 ”继续 碍 看 下 一 层 
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10) 压缩 hadoop 212!) slavel 和 slave2 上 ， 先 打包 tar -cvf hadoop-1. 0. 1. tar hadoop- 
1.0. 17, UK) 4-96 所 示 。 


bs TS ie e Bia VE RECTE 
| [hadoop&master —-|$ tar -cvf hadoop-1.0.1.tar hadoop-1.0.1 





图 4-96 751] tar -cvf hadoop-1. 0. 1. tar hadoop-1. 0. 1/ 
碍 看 是 否 压 脓 成 功 ， 如 图 4-97 Bron; 


[hadoc p&mas ter ~]$ 11 


5 hadoop hadoop 
1 hadoop hadoop 1 





图 4-97 ”查看 是 否 压缩 成 功 
复制 给 两 个 slave，scp hadoop-1. 0. 1. tar slave * :' pwd’ /， 如 图 4-98 所 示 。 





图 4-98 ”复制 给 两 个 slave 
11) 然后 在 slavel 上 操作 ,解压 cd ~ Il, tar -xvf hadoop-1. 0. 1.tar， 如 图 4-99 所 示 。 
[hadoop@slavel .ssh]$ c 


Lhadoopislavel ~]§ 
Pit 183480 


rw-rw-r 1 hadoop hadoop 187686960 03-24 22:32 
[had oop&s lavel —-]$ tar -xwf hadoop-1. 0. 1. tar 
3adoop-1. 0.1, 





图 4-99 解压 cd ~ hae tar -xvf hadoop-1. 0. 1. tar 
12) 解压 每 个 包 ， 解 压 之 后 ， 在 每 人 台 机 大 上 编辑 ~/. bash profile 文件 ， 如 图 4-100 所 
示 ， 末 尾 添加 如 下 行 
export HADOOP HOME = /home/hadoop/hadoop-1. 0. 1 
export PATH = $ PATH; $ HADOOP. HOME/bin 
exportCLASSPATH =. : $JAVA HOME/lib: $ HADOOP_HOME/lib 
export HADOOP HOME WARN. SUPPRESS = 1 





图 4-100 在 每 台 机 器 上 编辑 ~ /. bash. profile 文件 





13) 经 过 以 上 两 个 步骤 ，Hadoop 的 安装 和 配置 已 经 安 成 了 ， 那 么 下 面 就 来 启动 Hadoop 
集群 。 在 局 动 Hadoop 之 前 ， 首 先 要 做 的 就 是 格式 化 HDFS 文件 日 录 : 

hadoop namenode -format 

成 功 情况 下 系统 输出 如 图 4-101 所 示 。 

14) 启动 Hadoop 集群 . 

start-all. sh 


系统 输出 如 图 4-102 所 示 。 
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cenLifetime=0 mi 





图 4-101 成功 情况 下 系统 输出 


nadap, 


hada 


p] $ 


Permanet 
He-ma: 
[2]: lads 
1g : gging to /home/ha 
ð ta 
0 





K] 4-102 ”启动 Hadoop 集群 系统 输出 

15) 局 动 完 成 后 ， 最 好 使 用 jps 命令 查看 Hadoop 的 进程 ， 在 master 服务 市 点 上 有 如 下 
进程 如 图 4-103 所 示 。 

NameNode 

JobTracker 

Secondary NameNode 

在 每 台 slave 上 有 如 下 的 进程 如 图 4-104 Brzn : 

TaskTracker 

DataNode 








$^ 192.168.0.101 | €^ 192.16] 9.102 x | @ 192.168.0.103 








图 4-103 master 服务 节点 上 的 进行 图 4-104 每 台 slave 上 的 进程 
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如 上 所 有 进程 都 在 的 话 ， 则 表示 集群 已 经 完全 启动 。 

TE: 当 集 群 局 动 完成 后 ， 如 末 还 想 进 行 其 他 操作 ， 必 须 每 竺 防火墙 关闭 ， 查 看 防火 载 是 
BHA ATS: hadoop dfsadmin-safemode get。 当 输出 是 “OFF” 时 才 可 以 进行 操作 ， 否 则 
不 允许 操作 ， 如 图 4-105 所 示 。 











[hadoop@master logs]$ hadoop dfsadmin -safemode gei 
sate mode 15 ON 
fhadoopamaster logs]$ hadoop dfsadmin -safemode ge 
sate mode 15 OWN 
logs]$ hadoop dfsadmin -safemode get 
al 


[hadoop@master logs] hadoop dfsadmin -safemode 
-=| E: pm - 


le 15 ON 


o05]$ hadoop dfsadmin -safemode get 


图 4-105 AE "OFF" 
16) 停止 Hadoop 集群 : 
stop-all. sh 
3. Hadoop 核心 程序 配置 
1) 主要 修改 cd hadoop-1. 0. 4/conf/, ll 目录 下 的 东西 ， 如 图 4-106 所 示 。 


Last login: Sun Mar J24 74:14:33 2013 fri 
[hadoopimaster —-]$ cd hadoop-1.0.4/conft 


[2] " " " - Li = B: i 
! Hes L e LUT] |3} E| 
k 


J =J 


; hadoop 
3 hadoop 
p hadoop 223 


| Hnadgoop 


Zu ETE 


spam 


wu SJ] “J 


=] =] 


loop hadoop 43) 3 
op hadoop 1195 10-03 13 
hadoop 


VEN 


1 4 
1A 
1 ». 
"ar 
1 s 
lh 
1 | 
1 "m 
l i s, 
1 I= 
1h 
1 t 
1h 
1 T 
ih 
1 


Lid Lie RAJ LAF TAJ LEF TAJ LEF GAJ be LAJ GAJ LAJ LAJ 
I E I peb pa I IE E. HA S EA S p IS jl ja 





图 4-106 修改 
2) $HADOOP  HOME/conf/core-site. xml 是 Hadoop HS TZ» Ad gr CLF, XT Jf TS wi core- 
default. xml 中 的 配置 项 。 一 般 在 这 个 文件 中 增加 如 下 配置 : cd hadoop-1. 0. 4/conf/, vim 


core-site. xml , 


Core-site. xml 4&5 40 F . 


1. < configuration > 

2 < property > 

3 <! -- 用 于 dfs 命令 模块 中 指定 默认 的 文件 系统 协议 -- > 
4. « name > fs. default. name < /name > 

5 < value > hdfs .// master 9000 < /value > 

0 « / property > 

7 


. </configuration > 
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3) $HADOOP_HOME/conf/hdfs-site. xml 是 HDFS 的 配置 文件 ， 对 应 并 履 盖 hdfs-site. xml 
中 的 配置 项 。 一 般 在 这 个 文件 中 增加 如 下 配置 : cd hadoop-1. 0. 4/conf/, vim hdfs-site. xml, 
Hdfs-site. xml 代码 如 下 . 


4) $ HADOOP. HOME/conf/mapred-site. xml m Map/ Reduce AY ic EUER, XEWJETE ds 
mapred-default. xml 中 的 配置 项 。 我 们 一 般 在 这 个 文件 中 增加 如 下 配置 : vim mapred-site. xml, 
Mapred-site. xml 代码 如 下 : 





14. < name > mapred. local. dir < /name > 
15. < value > /hadoop/ data/ mapred. local. dir < /value > 
16. < / property > 


17. </configuration > 


主 从 配置 : Æ$ HADOOP_HOME/conf 目录 中 存在 masters 和 slaves 这 两 个 文件 ， 用 来 作 
Hadoop 的 主 从 配置 。 上 面 已 经 提 到 了 Hadoop 主要 由 NameNode/ DataNode 和 JobTracker/Task- 
Tracker 构成 ， 在 主 从 配置 里 一 般 将 NameNode 和 JobTracker 列 为 主机 ， 其 他 的 共 为 从 机 ， 于 
是 对 于 此 处 的 配置 应 该 是 : vim masters, WAI 4-107 所 示 。 

Masters {C4340 F. 











1. master 


修改 slaves 文件 : vim slaves, WHAI 4-108 所 示 。 


1 hadoop hadoop 
- € TE 





[hadoopimaster conf] i vim slaves 


图 4-107 配置 masters 图 4-108 ”修改 slaves 
Slaves 代码 如 下 . 


1. slavel 


2. slave2 


如 末 对 以 上 介绍 的 配置 项 做 了 正确 的 配置 ， 那 么 Hadoop 集群 上 只 差 启动 和 初 体 念 了 ， 当 
然 在 $ HADOOP. HOME/conf 目录 下 还 包括 其 他 的 一 些 配 置 文件 ， 但 那些 都 不 是 必须 设置 的 ， 
如 果 有 兴趣 可 以 目 己 去 了 解 。 

值得 注意 的 是 Hadoop 集群 的 所 有 机 硕 的 配置 应 该 保持 一 致 ， 一 般 我 们 在 配置 完 master 
后 ， 使 用 sep 将 Hadoop 目录 复制 到 其 他 两 合 slave E; 

scp -r hadoop-1. 0. 1 slavel : /home/hadoop/hadoop-l. 0. 1 

scp -r hadoop-1. 0. 1 slave2: /home/hadoop/hadoop-l. 0. 1 








4.3 获取 Hadoop 安装 包 


4.3.1 实验 目的 


1) 熟悉 Hadoop 的 相关 信息 。 
2) 学 会 如 何 获取 最 新 的 Hadoop 安装 包 。 


4.3.2 实验 设备 
hg pt. PC, 
4.3.3 实验 内 容 


1) 去 网 上 获取 Hadoop KRE, 
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2) 阅读 Hadoop 相关 文档 。 
4.3.4 实验 步骤 


了 解 和 获取 Hadoop ZZ; 
1) 搜索 Hadoop, ， 如 图 4-109 所 示 。 


Google au 


Bia 图片。 把 图 Kii — wme- 搜索 工具 


2 





Oficial site af the Apache project to provide an po implementation of 
frameworks for reliable, scalable, distributed computing and data storage. 
Hadoop Releases - Hadoop Version Control System - Current - FrontPage 


Apache Hadoop - 维基 百科 ， 自 由 的 百科 全 书 

zh.wikipedia org/zh-cn/Apache Hadoop :网 页 快照 

Hadoop Apache FERES ahah ECL EE TTE NIE TRAE: A 
Googled: fog E MapReduceslGoogle RRR: BTE... 


Apache Hadoop - Wikipedia, the free encyclopedia 
en.wikipedia.org/wik/Apache Hadoop - 同 页 快照 - 翻译 此 页 


Apache Hadoop is an open-source software framework that supports data-intensme 
distributed applications, licensed under the Apache v2 licansa. It supports ... 


图 4-109 搜索 Hadoop 
2) 进入 Apache 官方 网 站 ， 如 图 4-110 所 示 。 


El hadoop - Google AE 





Releases 


Malling Lists 





27 December, 2011: release 1.0.0 available 
March 2011 - Apache Hadoop takes top prize at Media Guardian Innovation Awards 








January 2011 - ZooKeeper Graduates 

September 2010 - Hive and Pig Graduate 

May 2010 - Avro and HBase Graduate 

July 2009 - New Hadoop Subprojects 

March 2009 - ApacheCon EU 

November 2008 - ApacheCon US 

July 2008 - Hadoop Wins Terabyte Sort Benchmark 


Documentation 
Related Projects 





LI DC oo mn mnm åa a a 
a. LH " =) a) =) m" il m" 


What Is Apache Hadoop? 


The Apache" Hadoop(& project develops open-source software for reliable, scalable, distributed computing 


Tha Anacha Liadnnn enfh ara lihran: ic a fromownark Haab alle far tha dietiibiibad nracoccmn nf larma data 


图 4-110 进入 Apache 官方 网 站 








图 hadcop - Google E 





E N Wome to apache Han, x 


Download Hadoop 


Please head to thf releases bage to downjoad a release of Apache Hadoop. 


Who Uses Hadoop? 


A wide variety of companies and organizations use Hadoop for both research and production. Users are encouraged to add themselves to the Hadoop Pow 
page. 





News 


27 December, 2011: release 1.0.0 available 
Hadoop reaches 1.0.0! Full information about this milestone release is available at Hadoop Releases. 


March 2011 - Apache Hadoop takes top prize at Media Guardian Innovation Awards 


Described by the judging panel as a "Swiss army knife of the 21st century", Apache Hadoop picked up the innovator of Ehe year award for having the pote 
change the face of media innovations. 


See The Guardian web site 

January 2011 - ZooKeeper Graduates 

Hadoop's ZooKeeper subproject has graduated to become a top-level Apache project. 
Apache ZooKeeper can now be found at http://zookeeper.apache.org/ 


September 2010 - Hive and Pig Graduate 
Hadoop's Hive and Pig subprojects have graduated to become top-level Apache projects. 


Apache Hive can now be found at http://hive.apache.org/ 
Pig can now be found at http://pig.apache.org/ 


图 4-111 选择 稳定 版 本 下 载 


4) 进入 下 载 页 ， 如 图 4-112 所 示 。 


Fl hadoop - Google AE x | V. Hadoop Releases 





Apache > Hadoop > 





Welcome 
iuc 
Mala Hadoop Releases 
Mailing Lists 
[Issue Tracking 
Who We Are? m Dow load 





$ 15 February, 2013: Release 1.1.2 available 

$ 14 February, 2013: Release 2.0.3-alpha available 
E 7 February, 2013: Release 0.23.6 available 

© 1 December, 2012: Release 1.1.1 available 

E 28 November, 2012: Release 0.23.5 available 











; Documentation Œ 15 October, 2012: Release 0.23.4 available 


KR 





™ 13 October, 2012: Release 1.1.0 available 

© 12 October, 2012: Release 1.0.4 available 

9 October, 2012: Release 2.0.2-alpha available 
17 September, 2012: Release 0.23.3 available 
= 26 July, 2012: Release 2.0.1-alpha available 

$ 23 May, 2012: Release 2.0.0- alpha available 
E 16 May, 2012: Release 1.0.3 available 

E 3 Apr, 2012: Release 1.0.2 available 

i 10 Mar, 2012: Release 1.0.1 available 

& 27 Feb, 2012: release 0.23.1 available 

& 27 December, 2011: release 1.0.0 available 

国 10 December, 2011: release 0.22.0 available 
5m 17 New 7011: relaasa n 73 0 availahle 





elated Projects 














thadaan anarho aran iralaarar ERST manm ml 


5) 
6) 


图 4-112 进入 下 载 页 
选择 下 载 一 个 AEE, ti 4-113 所 示 。 
选择 一 个 合适 的 网 址 ， 如 图 4-114 所 示 。 


从 第 4 章 集群 搭建 A 


| hadoop - Google HE X | WX Hadoop Releases 


Download 


+ 1.0.X% - current stable version, 1.0 release 

* 1.1.X - current beta version, 1.1 release 

+ 2.X.X - current alpha version 

+  0.23.X - simmilar to 2.X.X but missing NN HA. 
s 0.22.X - does not include security 

+ 0.20.203.X - old legacy stable version 

+  0.20.X - old legacy version 

om Apache mirrors. 








Download a relpase now! 





Dn the miror, all recent releases are available. 


Third parties may distribute products that include Apache Hadoop and derived works, under the Api 
page. 


News 


15 February, 2013: Release 1.1.2 available 
Point release for the 1.1.X line. Bug fixes and improvements, as documented in the Hadoop 1.1.2 RE 


14 February, 2013: Release 2.0.3-alpha available 
This is the latest (alpha) version in the hadoop-2.x series. 


This release delivers significant major features and stability over previous releases in hadoop-2.x se 


* QIM for HDFS HA for NameNode 
+ Multi-resource scheduling (CPU and memory) for Y ARN 


图 4-113 ”选择 版 本 


| Foundation Projects People Ge 
The Apache Software Foundation 





Home s Dyn 
Apache Downioad Mirrors 


We suggest the following mirror site for your download: 
http:lfwww.fayea.comíapache-mirror/hadoopicommoni 


Olher mirror sites are suggested celow. Please use the backup mirrors onty to download PGP and MDS signatures to verify your downigads or if 


HTTP 


httpii/www.fayea.com/apache-mirrorihadoop/common/ 
http:ífapache.etoak.com/hadocp/commorn 
httpzimárror.bjtu.edu.cniapache/hadoopícommon: 
http:/imirrors.tuna.tsinghua.edu.cn/apachei/hadoopicommoni 
http:i/mirrors.cnnic.cniapache/hadoopicommon! 


http:apache.dataguru.cnihadcopicommon! 


图 4-114 选择 网 址 
7) 选择 稳定 版 ， 如 图 4-115 所 示 。 
8) 选择 . gz 的 压缩 文件 ， 进 行 下 载 ， 如 图 4-116 Bra, 








| Hadoop Releases 


. Please make sure you're downloading from a nearby mirror site, not from www.apache.org. 


We suggest downloading the cura stable reas. 


- Older releases are available from the archives. 








97-Feb-2913 12:53 - 
0i1-7e5-2213 06:42 ^ 
a / 29-Jan-2523 12:65 “ 
-à : E 95-Ces-2022 04:30 - 
LA VP TP LA Ol-feb-2023 06:42 - 


hadoop-2.2.2-alnna/ Q97-fen-2013 11:53 - 


| arabia 05-Oct-2013 04:30 - 
= scabies 
Bj READER neml 24-Jan-2008 03:44 419 
EJ as 2i-Nev-2922 01:09 118K 
Fearne uzy 13-Dec-2922 13:29 287 





ELL OLLIE LL LER LIN LILO tl OSD ut SLAY IDLE PDL NDP ADAG IAL PL SALES ALAA AAPA AAEE A SILLY ALLE SAS NIA II APPA SORA DEAS AAPA ADELA SN PIN AP AAA A NBI ING GO SLE EA PAARL ABAD AD Ab ESL EAALLS ARAL SSSA yl SI eg uie gg fk P LAM y hier AP ee ti eA SSS BAAN HI 


Apache/2.2.22 (Ubuntu) Server at mirror. dit.eduen Port 81 


fteireon bitedu.cajapacheshadoos/commonsstable 





图 4-115 


选择 


版 


X C trde ot apad. 


~~ Index of /apache/hadoop/common/stable 







(o? 
ar [s [e eC ew 


op) [ur Cr (9 [a fe (x [u y 


EF r, 


Ci 


zm 


Parent Director 





hadoop-1.0.4-1.1386.rpm 
hadoop-1.0.41-1.i13B6.rpm.asc 
hadoop-1.0.43-1.13B6.rpm.mds 
h&doop-1.0.41-1.x86 64.rpm 
hadoop-1.0.43-1.x86 64.rpm.asc 
hadoop-1.0.43-1.x86 64.rpm.mds 
hadoop-1.0.4-bin.tar.gz 
hadoop-1.0.4-bin.tar.gz.asc 


hadoop-1.0.4.tar.gz 
hadoop-1.0.4.tar.gz.asc 
hadoop-1.0.4.tar.gz.mds 
hadoop 1.0.4-1 i38B6.deb 
hadeop 1.0.4-1 i386.deb.ase 
hadoop 1.0.4-1 i386.deb.mds 


hadoop 1.0.4-1 286 64.deb 
hadoop 1.0.4-1 x86 64.deb.asc 


Last modified 


03-Ocr-2012[%3:12 


05-Oct-2012 
05-Oct-2012 
03-Oct-2012 
05-Oct-2012 
05-Oct-2012 
03-Oct-2012 


05-Oct-2012 


03-Oct-2012 


05-Oct-2012 
05-Oct-2012 
03-Oct-2012 


05-Oct-2012 
05-Ocr-2012 
03-Oct-2012 


ü5-Oct-2012 


04:05 
04:04 
13:20 
04:05 
04:05 
13:17 


04:05 


04:05 
04:05 
13:13 
04:04 
04:04 
13:21 


04:05 


Size 


B27 


Description 


K| 4-116 ”选择 下 载 的 压缩 文件 











4.4 ”启动 和 关闭 Hadoop 集群 


4.4.1 实验 目的 
1) 熟悉 集群 启动 和 关闭 的 步 又 。 
2) 学 会 启动 和 关闭 集群 。 
4.4.0 实验 设备 


1) BE. 云 计算 一 体 机 、PC。 
2) 软件 SecureCRT, 


4.4.3 LWA 
使 用 SecureCRT 软件 启动 和 关闭 Hadoop 集群 。 
4.4.4 实验 步骤 


1) 首先 使 用 SecureCRT 软件 连接 到 master, HW] 4-117 所 示 。 
2) 找到 master 的 IP 地 址 ， 如 图 4-118 所 示 。 

3) 双击 IP 地 址 ， 登 录 成 功 ， 如 图 4-119 所 示 。 

4) 首先 启动 Hadoop， 输 入 start -all. sh ， 如 图 4-120 ra. 图 4-117 使 用 Secure 
5) 启动 Hadoop 成 功 ,需要 等 待 几 分 钟 退 出 安全 模式 ， 可 以 使 用 。 CRT 软件 















File Edit View Options Transfer Script Tools Window Help Reese 未 注册 
wi 1 A É 2 E SA p E Ix dd 


Lr [^6 Go ER c 


lig Conne: 
HH wd aA EFA |M e 





dee 


jel) 182.158.0.151 


idi] 132,158.10, 34 
i 132. 158.10. 17 





图 4-118 ”找到 master 的 IP 地 址 





A 第 2 篇 基础 实践 部 分 A 


图 192:168.0.101 - SecureCRT [定妆 -居中 
File Edit Wiew Options Transfer Script Tool Window Help RESB-x 未 注册 
全 下 TREE EL nh aus xf 9 : 


sp 192.168.0.101 x d b 





Ready ssh: SES-255-CTR 2, 20 39 Rows, 168 Cols Linux CAP NUM 


图 4-119 登录 成 功 


} from 192.168. 0. 3 


ume, RT: De [eT n rna 
ng to /home 


doop 1.0.1 e 
hadoop,/hadoop-1 





K] 4-120 局 动 Hadoop 
hadoop dfsadmin -safemode get， 命 令 查看 时 候 关 闭 安全 模式 ， 如 果 是 ON， 代 表 没 有 关闭 ， 如 
K] 4-121 所 示 。 
[ha doopimas ter a] H hadoop disadmin -safemode get 


Sate mode is ON 


[hadoopgmaster 一 |] 中 hadoop dfsadm@h -safemode getg 








图 4-121 退出 安全 模式 





6) 当 出 现 OFF 时 ， 代 表 已 经 退出 安全 模式 ， 如 图 4-122 所 示 。 

7) 这 个 时 候 局 动 要 启动 web 容 般 ， 首 先进 入 apache-tomcat-6. 0. 36 这 个 目录 下 : ed a- 
pache-tomcat-6. 0. 36/ 。 

8) 然后 启动 web 44s: bin/startup. sn， 如 图 4-123 Ara. 
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[hadoop&master -]$ hadoop dfsadmin -safemode get 
cafe mode is ON 
[hadoopemast ef 1§ hadoop dfsacmir sal emode get 


Sate mode is ON 


[iedoopemaster ~] Madoop dfisadmin -safemode get 
hate mode 15 OFF 


fap I. Sr 





Fl 4-122 退出 成 功 





图 4-123 ”启动 web 44k 
9) 使 用 jps 命令 查看 一 下 是 否 启 动 成 功 ， 如 图 4-124 所 示 。 

















图 4-124 使 用 jps 命令 查看 一 下 是 否 局 动 成 功 








10) 其 中 Bootstarap FEAR FEAR AS AY FE BM, 剩 下 三 个 是 Hadoop 集群 ， 有 这 儿 个 进程 代 
表 启 动 成 功 ， 可 以 通过 页 面 进行 访问 . 
master. 8080/education/ 


输入 网 址 ， 可 以 登录 到 云 平台 ， 如 图 4-125 所 示 。 








G 云 计算 实 训 项 目 












用 户 名 : 


E m 
LELI] 


类 Al: mmn ~ 


没有 账号 ? 请 注册 


admin 


re 
HD 





版 权 所 有 @ 2013 JrgBEE SEES R FRAN 














图 4-125 ”登录 云 平台 
11) 用 户 名 和 密码 进入 ， 如 图 4-126 所 示 。 
12) 然后 是 关机 ， 首 先是 关闭 web Zf38: bin/shutdown. sh， 如 图 4-127 所 示 。 





seao 云 计算 实 训 项 目 





智能 EMS 速 递 云 微 信 关系 分 析 





图 4-126 进入 项 目 选 择 界面 


agg JE; apache 
jok1. 6.1 
hadoop, apache 





Al 4-127 关闭 web ài 
13) 然后 是 停止 Hadoop 集群 . stop-all. sh, 如 图 4-128 所 示 。 


6]9 stop-all.sh 





图 4-128 ”停止 Hadoop 集群 
14) 最 后 通过 jsp 命令 看 一 下 是 否 关闭 成 功 ， 如 图 4-129 所 示 。 





图 4-129 ”查看 是 否 关 闭 成 功 





15) 可 以 看 到 进程 已 经 都 没有 了 ， 表 示 关 财 成 功 。 这 个 时 候 就 可 以 天 闭 连接 工具 ， 然 
J ey a FE DT FL 
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$5 i 3J Hadoop 本 地 集群 


5.1 2428 Hadoop 的 一 些 常用 命令 


5.1.1 实验 目的 


1) TS Hadoop ^it MHMS Mud 
2) 学 会 在 操作 中 使 用 这 些 命令 。 


5.1.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 








5.1.3 实验 内 容 
使 用 SecureCRT 工具 在 集群 上 操作 一 些 第 用 命 人 < 


~ 


5.1.4 实验 步骤 


[hadoop@master —]$ hadoop dfs -ls / 
Found 1 items 
drwxr-xr-x hadoop supergroup 2013-03-24 22:45 /hadoop 


[hadoop&mas ter -]5 | 


[hadoop&master —-]$ hadoop dfs -ls / 
Found 1 items 
drwxr-xr-x - hadoop supergroup 0 2013-03-24 22:45 /hadoop 
[hadoop&mas iter ~)§ hadoop dfs -ls ,hadoop 
Found 1 items 
drwxr-xr-x - hadoop supergrou 0 23:29 /hadoop/mapred 
[hadoopamaster —]$ hadoop dfs ej 
Found 1 items 
drwx------ - hadoop supergroup 0 2013-03-24 23:29 /hadoop/mapred/sysrtem 
[hadoop&master —]$ hadoop dfs -ls /hadoop/mapred/system 
Found 1 items 
rw : 2 hadoop supergroup 4 2013-03-24 23:29 /hadoop/mapred/system/jobtracker. info 
[hadoopümas ‘ter 一] 号 





图 5-2 ”预览 命令 (二 ) 
2) 传输 命令 put, hadoop dfs -put， 如 图 
5-3 BAN o [hadoop&master ~]$ hadoo op df: s -put 
先 放 一 个 文件 到 集群 上 ， 如 图 5-4 所 示 。 
3) fU ESSET, WA 5-5 Bron. 图 5-3 ”传输 命令 





sage: ja a Fsshell [-put «localsrc: 
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Iri sitp://hadoopigmaster - Filezilla elo lm 


StF) SE) SBM) iT) 服务 器 ( 引 韦 签 (B] RHH) 
& -i[/[-jCL s+ & & SS" 


屏幕 录像 专家 -未 注册 





主机 (H): sftp://sevel 用 户 各 (U): hadoop FBW: ssessssss dEDEQD ceog 
JR: 谋取 目录 列表 

ay: b 

lm: Listing directory /hame/hadoop 


状态 : 到 出 目录 成 功 
Toss: 已 从 服务 器 断 开 


sftp;/hadoopümaster x| sftp;/hadoopigslavel x 
dde: | C:\Users\hadoop\Desktop\ = | 运程 站 点 : |/home/hadoop 
| E Searches a È’ 
SendTo 2 home 
Templates * hadoop 
Bi Videos 
workspace 


fan) wid 





se 文件 大 小 IMBRE HBT ‘UR FASE 

: 043 Rese 913, tis. E mozilla xH 2013/3/24 21.. drwxr-xr-x — hadoop hu 

C misina. 2021 WEDA 2013/3/19 11:30;.. : ssh MA 2013/3/24 21.. drnwx------ hadoop h... 

Bokn Ink 2119 eas 2013/3/24 13:12... hadoop.. UE 2013/3/24 22.. drwx---- hadoop h.. 

3 | desktop.ini 82 ERLE 2013/1/15 14:47... bash hi... 993 BASH HIS.. 2013/3/24 22.. -rw------- hadoop h.. 

Ü Foxmailnk 532 HEDA 2013/1/16 11:47... |. bash lo... 33 BASH IO.  2013/3/2421.. -rw-r--r- “Tt hadoop hu. 

[a] keygen . te... 835 tI 2013/1/21 10:52... = -bash_p... 493 BASH PR.  2013/3/24 22.. -rw-r--r-- hadoap h.. 
esT lE, FNS: 172,544 zT 6PM $0 3 TER. Xo] ei 6279895137 





Essen 方向 mme X ESE RE 


图 5-4 传输 文件 到 集群 


和 LN 
i i 
ak Taasis 
n [| I 
ada Ip 
i i 
Magoo 


hadoop 





图 5-5 复制 到 机 各 上 
4) 复制 这 个 文件 到 根 目 录 test H3* F, hadoop dfs-put *. */tes/ *. * ， 如 图 5-6 所 示 。 








hadoop 6279305 


a ai oop dfs -put 





图 5-6 复制 到 根 目 录 
5) 查看 hadoop dfs-ls /test， 如 图 5-7 Prax. 


h E d a E. p df 5 


hadoop supergroup 





图 5-7 查看 





6) Jiu" http: //master; 50070， 如 图 5-8 所 示 。 后 台 查 看 复制 的 文件 如 图 5-9 所 示 。 


NameNode ° master:9100’ 


Started: Sun Mar 24 23:29:19 CST 2013 


Version: 1.0.1, r1243785 
Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Upgrades: There are no upgrades in progress. 





Cluster Summary 


图 5-8 浏览 后 台 文 件 页 
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A $5 RA Hadoop 本 地 集群 A 


E] hadoop - Google 2E x | [i HDFS:/ x | [882207 GB DFS Remaining... x 


Contents of directory / 


Goto : if [o | 


= 中 2013-03-24 22:45 pee 
| | | [2013- -05-24 23:52 |rwxr-xr-x |hadoop |supergroup| 


| [Type Size d [Block Size Modification Time Permission |Permission|Own Owner Group | 
i meth es 用 s [file |1 168.5 EB 2 ë É 64 NB 2013-03-24 23:52 |re-r--r-- |hadoop [supergroup| 





图 5-9 后 台 查 看 复制 的 文件 
7) 删除 文件 命令 rm, hadoop dfs-rm /test/ *. * ， 如 图 5-10 所 示 





-Fm "res 
10, ‘Test, cul ss 
yp dfs -1s 


图 5-10 删除 文件 命令 
8) 删除 文件 夹 命 令 rmr, hadoop dfs-rmr / 
test, "lE 5-11 Pra. 
页 面 查 看 删除 文件 如 图 5-12 所 示 。 
9) 上 传 文件 ，put 命令 ，hadoop dfs-put 图 5-11 ”删除 文件 夹 命令 
Text. txt /embest/textl. txt， 如 图 5-13 所 示 。 








[Name | Type [Si ze [Rep lication|B Block Size|M Hodification Modification Time|P ermission|Dwner | er |Group — | 
lhadoop|air | | | [2013-03-24 22:45 |rwxr-xr-x | a ea 


Go back to DFS home 





图 5$-12 页面 查看 删除 文件 




















i adoopé edla EE Xx 
T 75 = m 服务 器 [S) ”书签 (8) “帮助 (H) R zz m = mr 未 注册 
[a (GEA t+ Pe gine ta 
主机 (H):  sftp://slvet 用 户 名 (U): — hadoop BW): een SIX CP): Hiit) 日 
AE: 语 取 目录 列表 …. 
ee: b 
JAE: Listing directory /home/hadoop 


UD: 到 出 目录 成功 
ts: 已 从 服务 器 新 开 





| sftp://hadoop@master x | sitp://hadoop@siavel > | 




















x 
C:\Users\hadoop\Desktop\ ~ | 运程 站 点 : | /home/hadoop 7 
FI JE Searches "la zi 
js SendTo S-A home 
I Templates [3 EE hadoop 
B Videos 
fy workspace 
i ti we 
Rez AEAN MHE DERN + |z EO SEAE RR 权限 所 有 看 /组 
8 | desktop.ini 282 配置 设置 2013/1/15 14:47... i - 
G Foxmaillnk 532 EAS 2013/1/16 11:47... js mozilla xx 2013/3/24 21.. drwxr-xr-x — hadoop h... 
keygen DE. 835 ESS 2013/1/21 10:52... [8 js ssh NX 2013/3/24 21. drwx----- =  hadooph.. 
fe i p ERs TAES EIS E hadoop... xix 2013/3/24 22.. drwx------ hadoop h... 
2013/3/24 15:17:... hp xm 2012/10/3 13.. drwx----.  hadoop h... 
Wittware-Vivivi.. OS 338.6... cx 306: © | bash_hinn 2114 BASH HIS. 2013/3/24 23.  -rnw------- hadoop hm 
F) - SadRunner.d... 162 Microsoft Off... 2013/3/13 15:11... - | LJ) basho.. 32 BASH LO.. 2013/3/24 21. =rwer--r== hadoop h... 
RT 112 NSH: OST 了 个 交 件 和 4 TBR. AOR: 62,973,954 Sb 























ESETE 方向 BEms ee Xu GE RE 


KI 5-313 上传 测试 文件 到 集群 





人 第 2 篇 基础 实践 部 分 A 
10) 看 一 看 是 否 传 输 完 成 1， 如 图 5-14 所 示 。 


[hadoop&masrer ~]$ 11 





1 hadoop hadoop 

5 hadoop h vad oop 

i hadoop 

1 hadoop 

L hadoon | adoop 
ESSE i jadoo p dfs 


i 
$ 国 











图 5-14 看 一 看 是 否 传输 完成 
11) 打开 命令 cat, hadoop dfs-cat /embest/text1. txt, 如 图 5-15 所 示 。 


[ha adoi ypimas ter ~]$ hadoop dfs -cat embest /texril.t3 





图 5-15 ”打开 命令 
命令 行 浏 览 被 打开 的 文件 如 图 5-16 所 示 ， 页 面 浏览 被 打开 的 文件 如 图 5-17 所 示 。 








图 5-16 命令 行 浏览 被 打开 的 文件 


‘ese 
saa Henigo ce "9$ 
rare. ""9"**3 Ee eter" ?*":4"""** 


""ut* Bee "2202. so ep seer 2202221 二 逢 二 和 npne **"92€9""*4€9"*"9*4T€» eee 
LR) "".-"»*w 和 


EE seer op 9"*8* 848) BT ie "^»-""r""w»awa^" v'**r't9 
"*""" "*-**9 
-me ESS O* £826 'u*"*r""W***"-& #678 eetse Se S88 
mo "nop eo "t 
ALLT. D ETE I SE 
" Hn B" *VThi*"aevt"at gy" vs9$9:^ TETIT D 
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"RI eres S8e0ce tere 


图 5-17 页面 浏 览 被 打开 的 文件 
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12) 从 男 一 台 机 人 右上 下 载 get 命令 , hadoop dfs-get /embest/text2. txt ~ /mytxt. txt, Il, 如 
图 5-18 所 示 。 


2 Datahode 

[hadoop@slavel ~]$ hadoop dfs -get /embest/text2.txt ~/mytxt. TXT 
[hadoop@slavel —]$ 11 

Bu 28 


= 15 hadoop hadoop 4096 O3-?74 772 Fa 
14 hadoop hadoop 4096 03-24 73:2 
rwW= FTW 1 hadoop hadoop 4439 03-25 00:03 myCxt. txt 
[hadeopes Tav rel ~]$ c 





图 5-18 get 命令 


13) 创建 文件 夹 mkdir, hadoop dfs-mkdir /books, hadoop dfs-ls/, 40 5-19 所 示 。 


[hadoop&master =]$ hadoop dfs -mkdir /books 
[hadoop&master ~]$ hadoop dfs -ls / 
Found 3 items 
pci gs = hadoop supergroup 0 2013-03-25 00:10 /books 
- hadoop supergroup O 2013-03-25 00:08 /embest 
hadoop supergroup 0 2013-03-24 22:45 /hadoop 
MS E cunt ag ier 


a ? a E 
划一 | 





图 $-19 ”创建 文件 夹 
14) 看 文件 夹 有 多 大 空间 dus MS, hadoop dfs-dus/embest, 如 图 5-20 所 示 。 








[hadoop amas TE er ~]$ hado op dfs -dus /embest 
hdf's : / master :9100/embest 876 


[hadoopamasre er ~)§ E 





图 5-20 dus 命令 
5.2 使 用 distcp 进行 并 行 复制 


前 面 的 HFDS 访问 模型 都 集中 于 单线 程 的 访问 。 例 如 通过 指定 文件 通 配 ， 可 以 对 一 部 分 
文件 进行 处 理 ， 但 是 为 了 高 效 ， 对 这 些 文件 的 并 行 处 理 需 要 新 写 一 个 程序 。Hadoop 有 一 个 
叫 distcp (分 布 式 复制 ) 的 有 用 程序 ， 能 从 Hadoop 的 文件 系统 并 行 复制 大 量 数据 。 

Distcp 一 般 用 于 在 两 个 HDFS 集群 中 传输 数据 。 如 采集 群 在 Hadoop 的 同一 版 本 上 运行 ， 
就 适合 使 用 hdfs 方案 . hadoop distcp hdfs: //namenodel/foo hdfs: //namenode2. bar, 

这 将 从 第 一 个 集群 中 复制 /foo 目录 (和 它 的 内 容 ) 到 第 二 个 集群 中 的 /bar 目录 下 ， 所 以 
第 二 个 集群 会 有 /bar/foo 目录 结构 。 如 果 /bar 不 存在 ， 则 新 建 一 个 。 我 们 可 以 指定 多 个 源 路 
径 ， 并 且 所 有 的 都 会 被 复制 到 目标 路 径 。 源 路 径 必 须 是 绝对 路 径 。 

默认 情况 下 ，distcp 会 跳 过 目标 路 径 已 经 有 的 文件 ,但 可 以 通过 提供 的 -overwrite 选项 进 

新。 也 可 以 用 -update 选项 来 选择 只 更 新 那些 修改 过 的 文件 。 

注意 : 使 用 -overwrite ptr 中 任意 一 个 (或 两 个 ) ETD 源 路 径 和 目标 路 径 的 含 
义 。 这 可 以 用 一 inq o WAR CAE Te Bl PIT PENER Pj/foo 下 的 一 个 文 
件 ， 就 能 通过 运行 对 第 第 二 个 集群 的 改变 进 进行 同步 : hadoop M update hdfs: //namenodel/ 
foo hdfs. //namenode2/ bar/foo , 

目标 路 径 需要 末尾 这 个 额外 的 子 目录 /foo， 因 为 源 目录 下 的 内 容 已 被 复制 到 目标 目录 下 
(WRAZ rsync ,可 以 想象 -overwrite 或 -update 项 对 源 路 径 而 言 , 如 同 添加 一 个 隐 含 的 料 杠 ) 。 
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如 末 对 distep 操作 不 是 很 确定 ， 最 好 先 对 一 个 小 的 测试 目录 树 进 行 答 试 。 

有 很 多 选项 可 以 控制 分 布 式 复制 行为 ， 包 括 预 和 留 文件 属性 ， 忽 略 故障 和 限制 复制 的 文件 
或 总 数据 点 的 数量 。 运 行 时 不 刺 任 何 选项 ， 可 以 看 到 使 用 说 明 。 

Distep 是 作为 一 个 MapReduce 作业 执行 的 ， 复 制 工作 由 集群 中 并 行 运行 的 map 来 完成 。 
这 里 并 没有 reducer。 每 个 文件 都 由 一 个 单一 的 map 进行 复制 ， 并 且 distep 通过 将 文件 分 成 
大 致 相等 的 文件 来 给 每 个 map 数量 大 致 相同 的 数据 。 

map 的 数量 是 这 样 确定 的 ， 通 过 让 每 一 个 map 复制 数量 合理 的 数据 以 最 小 化 任务 建立 
所 涉及 的 开销 是 一 个 很 好 的 想法 ， 所 以 每 个 map 的 副本 最 少 为 236MB (除非 输入 的 总 大 小 较 
少 ,否则 一 个 map 就 足以 操控 全 局 ) 。 例 如 ，1GB 的 文件 会 被 分 成 4 个 map 任务 。 如 果 数 据 
很 大 ， 为 限制 市 宽 和 集群 的 使 用 而 限制 映射 的 数量 惑 会 变 得 很 有 必要 。map 默认 的 最 大 数量 
是 每 个 集群 节点 (tasktracker) 有 20 个 。 例 如， 复制 1000GB 的 文件 到 一 个 100 个 节点 的 集 
群 ， 会 分 配 2000 个 map (每 个 节点 20 个 map), ， 所 以 平均 每 个 会 复制 S12MB。 通 过 对 distep 
指定 -=m 参数 ， 会 减少 映射 的 分 配 数量 。 例 如 ，- mm 1000 会 分 配 1000 个 map， 平均 每 个 复 
制 1CB。 

如 采 想 在 两 个 运行 着 不 同 版 本 HDFS 的 集群 上 利用 distep, EH hdfs 协议 会 失败 ， 因 为 
RPC 系统 是 不 兼容 的 。 想 要 弥补 这 种 情况 ， 可 以 使 用 基于 HTTP 的 HFTP 文件 系统 从 源 中 进 
行 读 取 。 这 个 作业 必须 运行 在 目标 集群 上 ， 使 得 HDFS RPC 版 本 是 兼容 的 。 使 用 HFTP 重复 
前 面 的 例子 . hadoop distcp hftp: //namenodel: 50070/foo hfds : //namenode2/ bar, 

注意 ， 需 要 在 URI 源 中 指定 名 称 节 点 的 Web 端口 。 这 是 由 dfs. http. address 的 属性 决定 
HJ, SUAE 50070, 


























5.3 Web 浏览 Hadoop 储 群 


5.3.1 实验 目的 


1) 熟练 掌握 页 面 方式 浏览 Hadoop 集群 。 
2) 学 会 查看 集群 中 的 各 个 文件 。 


5.3.2 实验 设备 

硬件， 云 计算 一 体 机 、PC。 
5.3.3 实验 内 容 

使 用 浏览 器 访问 Hadoop 集群 。 


5.3.4 实验 步骤 











1) 输入 网 址 http: //master; 50070 ， 能 看 到 摘要 ， 页 面 访问 后 台 文 件 界 面 ， 如 图 5-21 
所 示 。 

2) MapReduce ja S md http: //master: 50030, 也 可 以 看 到 摘要 ， 页 面 访问 后 人 台 任 务 
界面 ， 如 图 5-22 所 示 。 
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| [5 Hadoop NameNode mast... x [CREE 
NameNode 'master:9100' 


Started: Sun Mar 24 23:29:19 CST 2013 

Version: 1.0.1, 1243785 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Upgrades: There are no upgrades im progress. 


Browse the filesystem 
Namenode Logs 


;luster Summary 


5 files and directories, 2 blocks = 7 total. Heap Size is 57.25 NB / 888.94 NB (65) 


Configured Capacity : 284. 13 GB 
DFS Used ; 168 RB 
Non DFS Used : 22. 07 GB 
DFS Remaining : 262. 66 GB 
DFS Used’ : oO 8 
DFS Remainings : 92.25 3 
Live Hodes : 2 
Dead Nodes ü 
Decommissioning Nodes : 0 
Number of Under-Replicated Blacks ü 


图 5-21 页 面 访 问 后 台 文 件 界 面 


Quick Links 


master Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Sun Mar 24 23:29:23 CST 2013 

Version: 1.0.1, r1243T85 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Identifier: 201303242323 


luster Summary (Heap Size is ERBEN sss. 94 MB) 
Running Occupied | Occupied | Reserved | Reserved Reduce J : 
Hap eee wee Hades Nap Fadaca Hap Kamas fancies tank Tasks five o Medis: Mute d em 
Tasks Tasks Slots Slots Slots Slots ap y Capacity 





sl ll: | 2o fof 


Scheduling Information 


Queue Name [state | scheduling Information 
T T 


Filter (Jobid, Priority, User, Name) | 
Example: 'user:smith 3200" will filter by 'smith' only in the user field and '3200' in all fields 








ere @ @ dq dioe | 


图 $-22 页面 访问 后 台 任 务 界面 
5.4 使 用 Hadoop 命令 归档 文件 


1. Hadoop 归档 文件 

每 个 文件 以 块 方式 存储 ， 块 的 元 数据 存储 在 名 称 广 点 的 内 存 里 ， 此 时 存储 一 些小 的 文 
fF, HDFS 会 比较 低 效 。 因 此 ， 大 量 的 小 文件 会 耗 尽 名 称 市 点 的 大 部 分 内 存 (注意 , 相 较 于 和 存 
储 文 件 原始 内 容 所 需要 的 磁盘 空间 ,小 文件 所 需要 的 空间 不 会 更 多 。 例 如 ,一 个 1MB 的 文件 
以 大 小 为 128MB 的 块 存储 ,使 用 的 是 1MB 的 磁盘 空间 ,而 不 是 128MB)。 

Hadoop Archives 或 HAR 文件 ， 是 一 个 更 高 效 地 将 文件 放 入 HDFS 块 中 的 文件 存档 设备 ， 
在 减少 名 称 市 点 内 存 使 用 的 同时 ,仍然 允许 对 文件 进行 透明 地 访问 。 具 体 说 来 ，Hadoop Ar- 
chives 可 以 被 用 作 MapReduce 的 输入 。 

2. 使 用 Hadoop Archives 
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Hadoop Archives 通过 使 用 archive 工具 根据 一 个 文件 集合 创建 而 来 。 这 些 工具 运行 一 个 
MapReduce 作业 来 并 行 处 理 输 入 文件 ， 因 此 我 们 需要 一 个 MapReduce 集群 去 运行 使 用 它 。 
HDFS 中 有 一 些 我 们 希望 归档 的 文件 . hadoop fs-lsr/my/files, BH 

%  hadoop fs -lsr /my/files 





-rW-r--r-- ] tom supergroup ] 2009-04-09 19:13 
/my/files/a 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 

/ my/ files/ dir 

-rW-r--r-- ] tom supergroup ] 2009-04-09 19:13 
/ my/files/dir/b 


现在 我 们 可 以 运行 archive 1&5 . hadoop archive-archiveName files. har /my/files /my。 

第 一 个 选项 是 归档 文件 名 称 ， 这 里 是 file. har, HAR 文件 总 是 有 一 个 . har 扩展 名 , Me 
必需 的 ， 具体 理由 将 在 后 面 描 述 。 接 下 来 把 文件 放 入 归档 文件 。 这 里 只 归档 一 个 源 树 ， 即 
HDFS F/my/files 中 的 文件 ， 但 事实 上 ， 该 工具 接受 多 个 源 树 。 最 后 一 个 参数 是 HAR 文件 
的 输出 目录 。 下 面 看 看 这 个 归档 文件 是 怎么 创建 的 : hadoop fs-ls /my， 即 

% hadoop fs -ls /my 

Found 2 items 

Hadoop fs-ls /my/files. har, BP 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 /my/files 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 

/my/ files. har 

% hadoop fs -ls /my/files. har 


Found 3 items 





-rw-r--r-- 10 tom supergroup 165 2009-04-09 19:13 
/my/files. har |. index 

-rW-r--r-- 10 tom supergroup 23 2009-04-09 19:13 
/my/files. har/_ masterindex 

-rW-r--r-- ] tom supergroup 2 2009-04-09 19:13 


/my/ files. har/part-0 

这 个 目录 列表 展示 了 一 个 HAR 文件 的 组 成 部 分 :两 个 索引 文件 和 部 分 文件 的 集合 (本 
例 中 只 有 一 个 ) 。 这 些 部 分 文件 包括 已 经 链接 在 一 起 的 大 量 原始 文件 的 内 容 ， 并 且 索 引 使 我 
们 可 以 查找 那些 包含 归档 文件 的 部 分 文件 ， 包 括 它 的 起 始点 和 长 度 。 但 所 有 这 些 细 市 对 于 使 
用 har URI 方案 与 HAR 文件 交互 的 应 用 都 是 隐藏 的 ，HAR 文件 系统 是 建立 在 基础 文件 系统 
上 的 (本 例 中 是 HDFS ) 。 以 下 命令 以 递归 方式 列 出 了 归档 文件 中 的 文件 : hadoop fs-lsr 
har; ///my/files. har, BẸ 

% — hadoop fs -lsr har: ///my/files. har 

















drw-r--r-- -tom supergroup 0 2009-04-09 19:13 
/my/ files. har/my 
drw-r--r-- -tom supergroup 0 2009-04-09 19:13 


100 
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/my/ files. har/my/files 


rw-r--r-- 10 tom supergroup ] 2009-04-09 19:13 

/my/ files. har/my/files/a 

drw-r--r-- - tom supergroup 0 2009-04-09 19:13 

/my/ files. har/my/files/ dir 

-rW-r--r-- 10 tom supergroup 1 2009-04-09 19:13 


/my/ files. har/my/files/dir/b 

WMR HAR 文件 所 在 的 文件 系统 是 默认 的 文件 系统 ， 这 就 非常 耳 观 多 懂 。 但 如 采 想 使 用 
在 其 他 文件 系统 中 的 HAR 文件 ， 束 需要 使 用 一 个 不 同 于 正常 情况 的 URI 路 径 格式 。 以 下 两 
个 指令 作用 相同 ， 例 如 : 

% hadoop fs-lsr har: ///my/files. har/my/files/ dir 

% hadoop fs-lsr har: //hdfs-localhost: 8020/my/files. har/my/files/ dir 

注意 第 二 个 格式 ， 仍 以 har 方案 表示 一 个 HAR 文件 系统 ， 但 是 是 由 hdfs 指定 基础 的 文 
件 系统 方案 ， 后面 加 上 一 个 横 枉 和 HDFS host( localhost) 和 端口 (8020) 4. MES. -H AAP 
4 HAR 文件 必须 要 有 . har 扩展 名 了 。 通 过 查看 权限 和 路 径 及 . har 扩展 名 的 组 成 HAR 文件 
系统 将 har URI 转换 成 为 一 个 基础 文件 系统 的 URI。 在 本 例 中 是 hdfs. /localhost: 8020/user/ 
tom/files. har。 路 径 的 剩余 部 分 是 文件 在 归档 文件 中 的 路 径 : /user/tom/files/ dir, 

要 想 删除 一 个 HAR 文件 ， 需 要 使 用 删除 的 递归 格式 ， 因 为 对 于 基础 文件 系统 来 说 ， 
HAR 文件 是 一 个 目录 . hadoop fs-rmr /my/files. har, 

3. AE 

对 于 HAR 文件 ， 还 需要 了 解 它 的 一 些 不 足 。 创 建 一 个 归档 文件 会 创建 原始 文件 的 一 个 副 
本 ， 因 此 需要 与 要 归档 (尽管 创建 了 归档 文件 后 可 以 删除 原始 文件 ) 的 文件 同样 大 小 的 磁盘 空 
间 。 虽 然 归 档 的 文件 能 被 压缩 (HAR 文件 在 这 方面 像 tar 文件 ) ， 但 是 目前 还 不 文 持 档案 压缩 。 

一 旦 创建 ，archives 便 不 可 改变 。 要 增加 或 移 除 文件 必须 新 创建 归档 文件 。 事 实 上 ， 这 
对 那些 写 后 便 不 能 改 的 文件 来 说 不 是 问题 ， 因 为 它们 可 以 定期 成 批 归 档 ， 比 如 每 日 或 每 周 。 
如 前 所 述 ，HAR 文件 可 以 用 作 MapReduce 的 输入 。 然 而 ， 没 有 归档 InputFormat 可 以 打包 多 
个 文件 到 一 个 单一 的 MapReduce， 所 以 即使 在 HAR 文件 中 处 理 许多 小 文件 ， 也 仍然 低 效 。 
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6.1 系统 检查 和 报告 





Hadoop 提供 的 文件 系统 检查 工具 叫做 fek。 如 参数 为 文件 路 径 时 ， 它 会 递归 地 检查 该 
路 径 下 所 有 文件 的 健康 状态 。 如 果 参 数 为 /， 它 就 会 检查 整个 文件 系统 。 图 6-1 所 示 为 一 个 
输出 的 示例 . bin/hadoop fsck ~。 


[hadoop@master —]$ hadoop fsck / E 
FSCK started by hadoop from /192.168.0.101 for path / at Mon Jun 10 13:04:46 CST 20 
13 


/hadoop/ Lm ‘mapred/ staging? ree Ae staging/job_201303250301_0006/job. jar Under re 
plicatec <_272923803 764277_1065. Target Replicas is 10 but found 2 Ed ca(s) 


/hadoop/tmp/ mapred/ staging/ dona: staging/job_201303250301_0013/job. jar Under re 
plicated blk_70567965166352616 127. Target Replicas is 10 but found 2 ic ca(s) 


Total size: 421654591 B 

Total dirs: 114 

Total files: Fé 

Total blocks ( validated): 170 (avg. aioe size 2480321 B) 
Minimally repli cated blocks: 170 (100. 36 

Over -repli cated bloc ks: 0 (0 

Under -replicated blocks 

Mis-replicated blocks: 

Default replication factor: 2 

Average block replication: . 9764706 

Corrupt blocks: 0 

Missing replica 16 (4.7619047 %) 

Number of data- nodes 2 

Number of racks 1 

FSCK ended at Mon Jun 10 13:04:46 CST 2013 in 57 milliseconds 





The filesystem under path '/' is HEALTHY 
[hadoop&master ~]$ 


图 6-1 一 个 输出 的 示例 

大 多 数 信息 是 不 言 而 喻 的 。 默 认 情 况 下 ，fsck 会 忽略 正在 被 客户 端 写 人 而 打开 的 文件 。 
如 果 想 看 到 这 些 文件 的 列表 ， 可 以 在 fsck 中 使 用 -openforwrite 参数 。 

在 fsck 检查 文件 系统 时 ， a 的 文件 就 会 打印 出 一 个 圆 点 (未 在 前 述 的 输出 
中 显示 ) 。 遇 到 不 健康 的 文件 时 ， 它 会 打出 相应 信息 ， 包 括 过 度 复制 的 块 、 复 制 不 足 的 块 、 未 
复制 的 块 、 ee AA 因为 HDFS 是 目 我 修复 的 ， 所 以 过 度 复 制 的 块 、 复 制 不 足 
的 块 、 未 复制 的 块 都 不 足 为 虑 。 但 是 ， 损 坏 的 块 和 失 踩 的 副本 意味 看 数据 已 永久 丢失 。 默 认 情 
况 下 ，fsck 对 损坏 的 文件 什么 也 不 做 ,但 可 以 运行 fsck 的 -delete 选项 将 其 删除 。 但 更 好 的 方式 
是 用 -move 选项 运行 fsck ， 它 会 把 已 损坏 的 文件 移动 到 /lost + found 目录 中 备用 。 

还 可 以 在 fsck 中 加 上 -files 、-blocks -locations 和 -racks 选项 ， 以 打印 出 更 多 的 信息 。 每 个 

后 续 的 选项 需要 前 面 选 项 的 存在 : -blocks 需要 -files，-locations 既 要 有 -fles， 也 要 有 -blocks， 
以 此 类 推 。-files 选项 让 fsck 每 检查 一 个 文件 便 打 印 一 行 信息 ， 包 括 文件 路 径 、 文 件 字 市 数 
与 块 个 数 ， 以 及 文件 的 状态 。-blocks 选项 进一步 让 fsck UE ATIE Eh, 
该 行 包括 块 名 、 长 度 及 其 副本 数 。-locations 选项 会 让 每 一 行 包含 块 的 副本 位 置 。-racks 选项 
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则 会 在 位 置信 息 中 增加 机 染 名 。 例 如 ， 
bin/hadoop fsck /user/ hadoop/ test-files-blocks-locations-racks, 


[hadoop&master 


/]$ hadoop fsck / -files -blocks -locations -racks 
FSCK started by 


hadoop from /192.168.0.101 for path / at Mon Jun 10 


ab. j 


13:10:26 CSI 


EFE 


/hadoop/tmp/mapr ed/staging/hadoop/.staging/job 201303250 under 


44 pim 
ahi ow J 


201 0301_0013/] Under 


/hadoop/tmp/mapr ed/ 


staging/hadoop/.staging/ job . 
ee ee a a ee ee (rac n ERE NNI heen EN BAR INN OS e E INTE ee eee eee CINCO se Qu ru OS UNS VR A Le EUR UR. fe Status: 
Total size: 421654591 B 

Total dirs: 114 

Total files: 174 

Total blocks (validated): 
Minimally replicated blocks: 
OW ‘er -replicated blocks: 
under-replicated blocks: 
Mis-replicated blocks: 
Default replication factor: 
Average block replication: 
corrupt blocks: 
Missing replicas: 
Number of data-nodes: 
Number of racks: 

FSC ended at Mon Jun 


(avg. block size 2480321 B) 


(100.0 5) 


.9764706 


(4.7619047 %) 


10 13:10:26 2013 in 50 milliseconds 


ET 


The filesy: is HEALTHY 


ystem under path 
[hadoop@mas 


"E 


图 6-2 报告 


replicated blk 


replicated blk_ 
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一 个 小 到 仅 有 一 个 数据 块 的 文件 会 给 出 如 下 的 报告 : 
如 图 6-2 所 示 。 


2013 


ra 


27 
— Ó 


29 


7056 


HEALTHY 





虽然 fsck 会 给 出 HDFS 中 每 个 文件 的 报告 ， 
命令 ， 可 以 使 用 dfsadmin 命令 中 的 -report 选项 


Mame: 192.168.0.102 
Decommission Status 
Configured Capacity: 152863682560 
DFS Used: 290648064 (277.18 MB) 

Non DFS Used: 11959840768 (11.14 GB) 

DFS Remaining: 140613 193728(130.96 GB) 
DFS Used%: 0. 5 
DFS Remaining 
Last contact: 


750010 
Normal 


37 


(142.37 GB) 


Mon Jun 10 13:11:45 CST 2013 


[hadoop&master /]$ hadoop dfsadmin -report 
conf igur ed Capacity: 305727365120 (284.73 
Present Capacity: 282010820608 (262. 64 88) 
DFS Remaining: 281562374144 

DFS Used: 448446464 (427.67 

DFS Used%: 0.16% 

Under replicated blocks: 
Blocks with corrupt replicas: 
Missing blocks: 0 


GB) 


? 
£ 


Datanodes available: (2 total, 0 dead) 
Name: 192.168.0.103: 
Decommission Status Normal 
configured Capacity: 152863682560 
DFS Used: 157798400 (150.49 MB) 
Non DFS Used: 601344 (10.95 GB) 
DFS 
DFS 
DFS 


50010 
(142. 


l ining% 
Last contact: 


on Jun 10 13:12:15 CST 2013 


50010 

Norma | 
152863682560 ( 
(277.18 MB) 
5994 3168 (11.14 GB) 
3091328(130.96 GB) 


Name: 192.168.0.102: 
Decommission Status 
configured Capacity: 
DFS Used: 290648064 
Non DFS Used: 1195 
DFS Remaining: 1406 
DFS Used%: 0.1! 
DFS Remaining 

Last contact: 


91. 99% 
Mon Jun 10 13:12: 


15 c5T 2013 


[hadoop@master 


/15 E 


图 6-3 使 用 dfsadmin 命令 中 的 - -report 选项 


bin/hadoop dfsadmin -report , 





但 获知 DataNode 的 情况 却 需要 用 dfsadmin 


如 图 6-3 所 示 。 
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H Zf NameNode 的 当前 活动 状态 ， 可 以 在 dfsadmin 中 使 用 -metasave 选项 . bin/ hadoop 
dfsadmin-metasave filename 。 

这 会 将 一 部 分 NameNode 的 元 数据 保存 到 日 志 目 录 下 filename 文件 中 。 在 这 些 元 数据 中 ， 
会 发 现 竺 复制 的 块 以 及 待 删除 块 的 列表 。 每 个 块 也 会 有 一 个 复制 列表 ， 指 回 它 被 复制 到 的 
DataNode。 最 后 ， 这 个 文件 还 会 给 每 个 DataNode 统计 摘要 。 
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1. 删除 DataNode 

有 时 会 从 HDFS 集群 中 删除 DataNode， 例 如 离线 升级 或 者 维护 一 台 机 器 。 从 Hadoop 中 
删除 节点 是 非 稼 简单 的 。 虽 然 不 推荐 这 样 做 ， 但 的 确 可 以 “ 杀 死 ”节点 或 将 之 从 集群 中 崎 
JF, HDFS 的 设计 非常 有 弹性 ， 让 一 两 个 DataNode 离线 不 会 影响 操作 的 正常 运行 。NameNo- 
de 会 检测 到 节点 的 死亡 ， 并 开始 复制 那些 低 于 约定 副本 数 的 数据 块 。 为 了 让 操作 更 为 顺畅 
和 安全 ， 特 别 当 删 减 大 批 DataNode 时 ， 应 该 使 用 Hadoop 的 退役 (decommissioning ) 功能 ， 该 
功能 确保 所 有 块 在 剩余 的 活动 节点 上 仍 达 到 所 需 的 副本 数 。 要 使 用 此 功能 ， 必 须 在 NameNo- 
de 的 本 地 文件 系统 上 生成 一 个 排除 文件 (最 初 是 空 的 ) ， 并 让 参数 dfs. hosts. exclide 在 Name- 
Node 的 启动 过 程 中 指 癌 该 文件 。 当 想 删 除 DataNode 时 ， 把 它们 列 在 排除 文件 中 ， 每 行列 出 
一 个 节点 。 还 必须 用 完整 的 主机 名 ， 卫 或 了 下: port 的 格式 来 指定 节点 。 执 行 Bin/hadoop df- 
sadmin-refreeNodes 来 强制 Name Node 重新 谈 取 排除 文件 ， 并 开始 退役 过 程 。 当 此 过 程 结 
后 ，NameNode 的 日 志文 件 会 出 现 像 “Decommission complete for node 172. 16. 1.55; 50010" 
这 样 的 消息 ， 此 时 就 可 以 将 点 从 集群 中 移出 了 。 

如 果 在 启动 HDFS 时 没有 让 dfs. hosts. exclude 指 回 排除 文件 ， 退 役 DataNode 的 正确 方法 
是 关闭 NameNode， 设 置 dfs. hosts. exclude 指 回 一 个 空 的 排除 文件 ， 重 新 局 动 NameNode。 在 
NameNode 成 功 重 启 后 ， 就 可 以 按照 上 面 的 步骤 操作 。 请 注意 ， 如 果 在 重启 NameNode 之 前 
在 排除 文件 中 列 出 了 需要 删 减 的 DataNode, HKA NameNode WEW, mÆ H P h 
" ProcessReport form unregistered node; node055; 50010" 这 样 的 消息 。NameNode 会 认为 它 接 
触 到 的 是 系统 之 外 的 DataNode ， 而 不 是 即将 删除 的 节点 。 

如 于 退役 的 机 各 在 后 来 的 某 个 时 刻 还 会 重新 加 入 集群 ， 应 该 在 外 部 文件 中 删除 它们 ， 并 
重新 执行 bin/ hadoop dfsadmin-refreshNodes 来 更 新 NameNode。 当 机 需 已 经 准备 好 重新 加 入 集 
群 时 ， 可 以 按照 后 面 介绍 的 步骤 来 添加 它们 。 

2. 增加 DataNode 

除了 让 离线 维护 的 机 各 重新 上 线 ， 可 能 还 会 在 Hadoop 集群 中 增加 DataNode， 以 便 有 更 
多 的 作业 来 处 理 更 多 的 数据 。 采 用 与 集群 中 所 有 DataNode 都 一 样 的 方式 在 新 节点 上 安装 Ha- 
doop 并 设置 配置 文件 。 手 动 启动 DataNode 的 守护 进程 (bin/hadoop datanode) o ES A JIKA 
NameNode 并 加 入 集群 。 还 应 把 新 市 点 添加 到 主 服务 兹 的 conf/slaves 文件 中 。 脚 本 命令 会 识 
别 到 新 节点。 

当 添 加 一 个 新 的 DataNode 时 ， 它 最 初 会 是 空 的 ， 然 而 早先 的 DataNode 已 经 存 了 一 些 内 
容 ， 这 时 文件 系统 被 认为 是 不 平衡 的 。 新 的 文件 将 有 可 能 进入 新 市 点 ， 但 其 副本 仍 会 进入 先 
前 的 节点 。 我 们 应 该 主动 地 司 动 HDFS 平衡 从 来 获得 最 优 性 能 。 平 衡 硕 的 运行 脚本 为 bin/ 
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start-balancer. sh ， 该 脚本 将 在 后 台 运 行 ， 和 直到 集群 达到 平衡 为 止 。 管 理 员 还 可 以 提前 终止 
它 ， 即 运行 bin/stop-balancer. sh, 

当 所 有 DataNode 的 利用 率 处 于 平均 利用 率 加 减 一 个 国 值 的 范围 内 时 ,集群 就 彼 认 为 是 
平衡 的 。 当 局 动 一 个 平衡 各 脚本 时 ， 可 以 指定 一 个 不 同 的 国 值 为 10% ， 当 局 动 平 衡 顶 脚本 
时 ， 也 可 以 指定 一 个 与 此 不 同 的 国 值 。 例 如 ， 要 设置 闵 值 为 5% 以 便 让 集群 达到 更 优 的 均匀 
分 布 ， 需 这 样 局 动 平衡 希 : bin/start-balancer. sh-threshold 5, 

因为 均衡 操作 会 占用 网 络 资源 ， 建 议 在 晚上 或 者 周末 做 ， 此 时 集群 可 能 不 会 太 忙 。 或 
者 ， 可 以 设置 dfs. balance. bandwidthPerSec 参数 ， 以 限制 用 于 做 均衡 的 带 寺 。 





6.3 权限 设置 


HDFS 采用 类 似 于 POSIX 语义 的 基本 文件 权限 管理 系统 。 每 个 文件 有 九 种 权限 设置 ; 与 
每 个 文件 关联 的 所 有 者 组 和 其 他 用 户 分 别 有 读 (r) 、 写 (w) 和 执行 (x) 权 限 。 不 是 所 有 的 权限 
设置 都 有 意义 。 在 HDFS 中 不 能 执行 文件 ， 所 以 不 设置 文件 的 x 权限 。 

目录 的 权限 设置 也 严格 遵循 POSIX 语义 。 权 限 r 允许 列 出 目录 ， 权 限 w 允许 创建 或 删除 
文件 或 目录 ， 权 限 x 允许 访问 子 目 录 。 

当前 版 本 的 HDFS 没有 太 多 安全 上 的 考虑 。 使 用 HDFS 的 权限 管理 系统 只 是 为 了 防止 在 
共享 Hadoop 集群 的 受信 任用 户 之 间 发 生 数 据 的 夸 外 误 用 和 和 窗 盖 。HDFS ASMP ETE 
份 验证 ， 并 相信 用 户 就 是 主机 操作 系统 所 声称 的 号 份 。Hadoop 的 用 户 名 就 是 登录 名 ， 等 同 
于 whomi 所 示 的 用 户 。 组 列表 与 bash-e groups 所 列 出 的 一 致 。 局 动 name node 的 用 户 名 是 一 
个 例外 ， 该 用 户 名 有 一 个 特别 的 Hadoop 用 户 名 ， 即 superuser。 这 个 超级 用 户 可 以 执行 任何 
文件 操作 ， 不 受权 限 设置 的 约束 。 此 外 ,管理 员 可 以 在 一 个 超级 用 户 组 中 通过 配置 参数 
dfs. permissions. supergroup 来 指定 成 员 。 所 有 超级 用 户 组 的 成 员 也 都 是 超级 用 户 。 

更 改 权 限 设置 和 所 有 权 可 以 使 用 bin/hadoop fs-chmod, -chown 以 及 -chgrp。 使 用 方式 与 
UNIX 操作 系统 中 对 应 的 命令 类 似 。 












































6.4 配额 管理 


上 默认 情况 下 ，HDFS 不 设 任何 配额 来 限制 一 个 目录 中 可 以 放 多 少 内 容 。 可 以 在 指定 目录 
上 局 用 和 指定 所 谓 的 名 字 配 额 ， 限 制 放 在 该 目录 下 的 文件 名 和 目录 名 的 个 数 。 其 主要 用 途 是 
防止 用 户 生成 过 多 的 小 文件 ， 令 NameNode 负担 过 重 。 以 下 命令 用 于 设置 和 清除 名 字 配 额 : 

bin/hadoop dfsadmin-setQuota <N > directory | :::directory | 

% bin/hadoop dfsadmin-clrQuota directory | …directory | 

HDFS 从 0. 19 版 开始 ， 还 支持 对 每 个 日 录 做 空间 配额 。 它 有 助 于 管理 一 个 用 户 或 应 用 
程序 可 用 的 存储 量 : 

bin/hadoop dfsadmin-setSpaceQuota <N > directory [**directory | 





% bin/hadoop dfsadmin-clrSpaceQuota directory | -+-directory | 
在 SetSpaceQuota MEF, foe FET A RAC A CEA EL, PBB VA 
后 缀 来 表示 单位 。 例 如 ，20g 将 代表 20GB, iij St 则 代表 5TB。 所 有 的 副本 都 计 入 配额 。 


105 











A 第 2 篇 基础 实践 部 分 A 


石 要 获取 目录 的 配额 ， 以 及 它 使 用 的 名 字 个 数 和 了 字 节 数 ， 可 使 用 市 有 -g 选项 的 HDFS 


shell 命令 count; Bin/hadoop fs-count-q directory [ ---directory ] 。 





6.5 Ja Mepit 


除了 文件 权限 之 外 ， 还 有 一 个 保护 机 制 可 以 防止 在 HDFS 上 意外 删除 文件 ， 这 就 是 回收 
站 。 默 认 情 况 下 该 功能 被 蔡 用 。 当 它 司 用 后 ， 用 于 删除 文件 的 命令 行程 序 不 会 立即 删除 文 
件 。 相 反 ， 它 们 暂时 把 文件 移动 到 用 户 工 作 目 录 下 的 . Trash/ 文 件 夹 下 。 在 用 户 设置 的 时 间 
延迟 到 来 之 前 ， 它 都 不 会 被 永久 删除 。 只 要 文件 仍 在 ,Trash/ 文 件 夹 下 ， 你 就 可 以 通过 将 它 
移动 到 原来 位 置 的 方法 来 恢复 它 。 

在 要 局 用 回收 站 功能 并 设置 清空 回收 站 的 时 间 延 迟 ， 可 以 通过 设置 core-site. Xml 的 
fs. trash. interval 属性 (以 min 为 单位 )。 例 如 ， 如 果 和 希望 用 户 有 24h(1440min ) 的 时 间 来 还 原 
已 删除 的 文件 ， 应 该 在 core-site. xml 中 设置 : 

< property » 























< name > fs. trash. interval < /name > 

« value > 1440 « /value > 

« / property > 

石 将 该 值 设置 为 0， 则 将 禁用 回收 站 功能 。 
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7.1 使 用 HDFS 上 传 文件 


7.1.1 实验 目的 


1) 熟悉 HDFS 工作 原理 。 
2) 学 会 使 用 HDFS 上 传 文件 。 


7.1.2 实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


7.1.3 实验 内 容 


1) 使 用 SecureCRT 工具 操作 和 集群 。 
2) 使 用 HDFS 上 传 文件 。 


7.1.4 实验 原理 
程序 源码 如 下 : 


import java. io. BufferedInputStream ; 





import java. io. FileInputStream ; 
import java. io. IOException ; 
import java. io. InputStream ; 
import java. io. OutputStream ; 


import java. net. URI; 


HDFS 实践 


import org. apache. hadoop. conf. Configuration ; 


import org. apache. hadoop. fs. FileSystem ; 


import org. apache. hadoop. fs. Path; 


import org. apache. hadoop. io. IOUtils ; 


import org. apache. hadoop. util. Progressable ; 


publie class UploadFile2HDFS | 
jf 5c 
* @ param args 


* @ throws IOException 
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*/ 
public static void main( String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length «2) | 
System. out. println(" parameter error ") ; 
| else | 
String localSre = args| 0 | ; 
String dst = args[1]; 
InputStream in = new BufferedInputStream( new FileInputStream ( 
localSre ) ) ; 
Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
FileSystem fs = FileSystem. get( URI. create( dst) , conf) ; 
boolean overwrite = false ; 
if( args. length > =3) | 


overwrite = Boolean. parseBoolean( args| 2 | ) ; 


| 
int bufferSize 2 4096 ; 


if( args. length > =4) | 

bufferSize = Integer. parseInt( args| 3 | ) ; 
| 
short replication 22; 
if( args. length > =5) | 

replication = Short. parseShort( args| 4 | ) ; 
| 
long blockSize = 1024L * 64 * 1024; 
if( args. length > =6) | 

blockSize = 1024L * Long. parseLong( args| 5 | ) * 1024; 
| 
OutputStream out = fs. create( new Path( dst) , overwrite, bufferSize, 

replication , blockSize, new Progressable( ) | 
publie void progress( ) | 
System. out. print(". ") ; 


is 
IOUtils. copyBytes( in, out, 4096, true) ; 
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7.1.5 实验 步骤 
1) 先 给 本 地 机 大 上 传输 一 个 视频 数据 ， 如 图 7-1 所 示 。 








sfipy/hadoop@ master - FileZilla k=l] 
File Edit Whew Transfer Sewer Bookmarks Help RASHES Ait All 
Pa (al a E E 
Jimaster Usemame: hadoop Password: ssssssss+ Port: | Quickconnect ||~ 








and: put "CAU 






































j beate Jhadaap/ experiment, file txt 
it Fie trar 
Status: Deconnacted from server * 
imovel = | Remote ste: /home/hadoop/ experiment - 
二 hadoop a 
SRECYCLE.EIN * mosla 
gE Download 7 ,sh 
english experiment | 
luxiang 全 hadoop-1.0.1 1 
movie T hadoop-1.04 
Systern Volume Information y w 
Filename Filesze Filetype Last modified Filename Filesize Filetype Last modified Permissions  QwnerfGre... 
E hadoog ha. 
T 5 alin $4 TETTE dewnloz... hadoog ha... 
EO BUZISEpisohus. om EEEN rip ERF rmvb 565,545,008 RMVE File english.tzt 
ES [ipid] FAHR 733,485,092 MKV File Ger, ar 
EU [GvfgE www.dyi31.com] LEDE H B RMVB File E filet. 
E EbvESESwww.dy131.com] RER RMNB File fille] txt 
EH [iEnd] PERE RMVB File file2. txt 
EB [ipad 31.com] E BMWS File file3 bet 
E [iE dy131.com] Fe 14808109.. RMVB File L mathtrt hadoog ha. 
E [pvESBEwrww.dyl3l.com] FARA 1.765, MEN File Textl.txt ha ha... 
BU 【6 二 Erwwdyl3l.com] TK 3,3845250.. RMVB File 03/11/2012 17:12:25 Text2 tz hadapg ha... 
Selected 1 file. Total size: 405,183 253 bytes 11 files. Total size: 36,723 bytes 
Serer Local file Direction Remote file Sue Priority Status 


Queved files Failed transfers Successful transfers (31) 


ims Queue empty LE 





图 7-1 上 传 数据 到 集群 
2) 用 命令 行 查看 ， 文 件 传输 是 否 成 功 11， 如 图 7-2 所 示 。 








图 7-2 用 命令 行 查看 
3) 因为 名 字 比 较 长 ， 所 以 用 mv 命令 换 一 个 名 字 ，mv *. * ， 如 图 7-3 rm, 








图 7-3” 换 一 个 名 字 
4) 然后 上 传 文件 ， 其 中 有 几 个 参数 可 以 随意 更 改 : 





第 一 个 是 文件 如 果 已 BATE , Ef Eu? true/false, 

第 二 个 是 缓存 大 小 ， 这 个 只 有 当 文 件 非常 大 时 会 有 用 ，4096 24K, 
第 三 个 是 是 否 要 备份 ， 备 份 几 份 ， 默 认 是 2 。 

第 四 个 是 块 的 大 小 ， 默 认 是 64MB ， 可 更 改 。 
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5) 然后 执行 
4096 1 128, eiii 面 访问 查看 ， 如 图 7-4 Bra. 


Contents of direc 





tory /experiment 


程序 hadoop jar exp. jar UploadFile2HDFS = . 


* /experiment/upload/ * . 






















































































/experiment 

Go to parent direct 

Name [Type Size [Replication [Block Size llodi fication Time [Permission |Omer [Group 
dedup fdir | | [2013-03-25 03:28 |rwxr-xr-3 [hadoop [supergroup 
score [dir | | [2013-03-25 04:07 |rwar-zr -1 |hadoep [supergroup 
sort [aiz | | [2013-03-25 03:39 |rwar-zr-a |hadoep [supergroup 
stioin [dir | 2013-03-25 04:23 |rwxr-xr-1 |hadoop |supereroup 
textl. txt [file|2. 93 KB|2 64 Nb — [2013-03-25 03:09 [rw-r—r— ||hadoop [supergroup 
TEE lair | | | [2013-03-25 04:34 |raxr-rr -x |hadoop [supergroup 








Local logs 


Log directory 





This is Apache Hadocp release 1.0.1 


图 7-4 页 面 浏览 上 传 文件 夹 
进入 ， 如 图 7-5 所 示 。 


tory /experiment/upload 


6) 点 击 “ 


Contents of direc 


"upload" 




















roe [ize —— [Replication Block Size Modification Ti 
faa Ri a 41 Bl [i28 NB 2013-03-25 04:34 |ra--—c eme em eem oup 














Local logs 


Log directory 





This is Apache Hadoop release 1.0.1 


图 7-5 页面 浏览 上 传 文件 





7) 可 以 看 到 里 面 已 经 有 了 刚才 上 传 的 文件 ， 并 且 看 到 了 后 面 的 参数 。 


7.2 ”使 用 HDFS 浏览 文件 和 目录 


7.2.1 实验 目的 


1) AZ HDFS 浏览 文件 和 目录 的 原理 。 
2) 学 会 使 用 HDFS 浏览 文件 和 目录 。 


实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


实验 内 容 


1) 使 用 SecureCRT 工具 连接 集群 。 
2) 使 用 HDFS 浏览 文件 和 目录 。 


7.2.4 实验 原理 
文件 查看 、 文 件 夹 查看 程序 源码 如 下 : 


7. 2. 2 


Ides 


* false 


A $73 HDFS 实践 A 


import java. io. IOException ; 


import java. text. SimpleDateFormat ; 


import java. util. Date; 


import org. 
import org. 
import org. 


import org. 


apache 
apache 
apache 


apache 


. hadoop. conf. Configuration ; 
. hadoop. fs. FileStatus ; 

. hadoop. fs. FileSystem ; 

. hadoop. fs. Path; 


publie class HDFSFileShow | 


7 5o 


* @ param args 


* (9 throws IOException 


x / 


public static void main( String| | args) throws IOException | 
//TODO Auto-generated method stub 
if( args. length « 1) | 


System 


| else | 


| 


. out. printIn(" parameter error ") ; 


SimpleDateFormat format = new SimpleDateFormat( 


" yyyy-MM-dd HH : mm:ss ) ; 


Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 


FileSystem hdfs = FileSystem. get( conf) ; 
Path path = new Path( args| 0] ) ; 
FileStatus stat = hdfs. getFileStatus( path) ; 


System 


System. 
System. 
System. 


System. 
System. 
System. 
System. 


. out. println ( X [ERES ." + stat. getPath( ). toUri( ). getPath( ) ) ; 
out. println( "是否 是 目录 :”+ stat. isDir( ) ) ; 
out. println (X FEX] ;" + stat. getLen( ) ) ; 
out. printIn ( ME Bit H 8j ." 
+ format. format( new Date( stat. getModificationTime( ) ) ) ) ; 
out. printIn(" 文 件 副本 个 数 ." + stat. getReplication( ) ) ; 
out. println(" 文 件 拥 有 者 :" + stat. getOwner( ) ) ; 
out. println(" 文 件 用 户 组 ."+ stat. getGroup( ) ) ; 
out. println(" 文 件 权 限 ." + stat. getPermission( ) ) ; 





DU A H SEE DR AU P. 
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import java. io. IOException ; 
import java. text. SimpleDateFormat ; 


import java. util. Date; 


import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileStatus ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path ; 


publie class HDFSFolderShow | 


/ * * 
* @ param args 
* (9 throws IOException 
*/ 
publie static void main (String | | args) throws IOException | 
//TODO Auto-generated method stub 
if (args. length « 1) | 
System. out. println. ("parameter error") ; 
| else | 
SimpleDateFormat format = new SimpleDateFormat ( 
" yyyy-MM-dd HH: mm: ss"); 
Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 
FileSystem hdfs = FileSystem. get (conf) ; 
Path path = new Path (args [0]); 
FileStatus folder = hdfs. getFileStatus (path) ; 
if (folder. isDir ()) | 
FileStatus | | array = hdfs. listStatus (path) ; 
for (FileStatus stat ; array) | 
System. out. println. (" 文 件 路 径 : " 
+ stat. getPath ( ) .toUri () . getPath ()); 
System. out. println (〈 "是否 是 目录 : "+ stat. isDir () ) ; 
System. out. println. (" 文 件 大 小 : "+ stat. getLen ()) ; 
System. out 
. prinln. (MBP A," 
+ format. format (new Date (stat 
. getModificationTime ()))); 
System. out. println (〈" 文 件 副 本 个 数 : "+ stat. getReplication ( ) ) ; 
System. out. println. ("文件 拥有 者 : "+ stat. getOwner ()); 
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System. out. println. (" 文 件 用 户 组 : "+ stat. getGroup ()) ; 
System. out. println ("文件 权限 . "+ stat. getPermission ( ) ) ; 
System. out. println ( "------------------------------------ 2 


| 


| else | 


System. out. println ("该 文件 为 非 目录 ! ") ; 


| 
7.2.5 实验 步骤 


ju] 3, xc PF s, Sc P e S dg AER P: 运行 程序 hadoop jar exp. jar HDFSFileShow /experi- 
ment/upload/ *. * 可 以 耳 接 看 到 文件 的 属性 ， 如 图 7-6 所 示 。 


opümasrer experimenr]$ hadoop jar exp. jar HDFSri li 


exper iment,/upload, m FEE. rmvb 


BIB. rw-r--r-- 
"nplmast er experiment | 4 








图 7-6 浏览 文件 或 文件 夹 
浏览 目录 实验 步骤 : 运行 程序 ， 可 以 看 到 文件 夹 下 的 内 容 , hadoop jar exp. jar HDFSFold- 
erShow /experiment/score, ， 如 图 7-7 ra. 








图 7-7 浏览 目录 
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7.3 使 用 HDFS 打开 、 下 载 和 删除 文件 


7.3.1 实验 目的 


1) 熟悉 HDFS 打开 、 下 载 和 删除 文件 的 原理 。 
2) 使 用 HDFS 打开 、 下 载 和 删除 文件 。 


7.3.2 实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


7.3.3 实验 内 容 


1) 使 用 SecureCRT 连接 集群 。 
2) 使 用 HDFS 打开 、 下 载 和 删除 文件 。 


7.3.4 实验 原理 
打开 文件 程序 源码 如 下 : 


import java. io. IOException ; 

import java. io. InputStream ; 

import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 

import org. apache. hadoop. io. IOUtils ; 


publie class HDFSFileCat | 


/ ko 
* @ param args 
* @ throws IOException 
* / 
public static void main ( String| | args) throws IOException | 
//TODO Auto-generated method stub 
if( args. length ! = 1) | 
System. out. println(" parameter error ") ; 
else | 
Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 
FileSystem hdfs = FileSystem. get( conf) ; 
Path path = new Path(args[ 0] ) ; 
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InputStream in = null; 
try | 

in = hdfs. open( path) ; 

IOUtils. copyBytes( in, System. out, 4096, false) ; 
| finally | 

IOUtils. closeStream( in ) ; 


下 载 文 件 程 序 源 人 码 如 下 : 
import java. io. BufferedOutputStream ; 


import java. io. File; 


import java. io. FileOutputStream ; 

import java. io. IOException ; 

import java. io. InputStream ; 

import java. io. OutputStream ; 

import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 

import org. apache. hadoop. io. IOUtils ; 


public class DownloadHDFSFile | 


J x * 
* @ param args 
* @ throwsIOException 
* / 
public static void main(String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length «2) | 
System. out. println(" parameter error ") ; 
| else | 
OutputStream bos = new BufferedOutputStream ( new FileOutputStream( 
new File( args| 1 |) ) ) ; 


Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
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FileSystem fs = FileSystem. get( conf) ; 
Path hdfs = new Path( args| 0 | ) ; 
InputStream hadopin = null; 
int bufferSize = 4096 ; 
if( args. length > 23) | 
bufferSize = Integer. parseInt( args| 2 | ) ; 


| 


try | 

hadopin = fs. open( hdfs, bufferSize ) ; 

IOUtils. copyBytes( hadopin, bos, 4096, false) ; 
| finally | 


IOUtils. closeStream ( hadopin ) ; 
[OUtils. closeStream( bos ) ; 


删除 文件 程序 源码 如 下 : 
import java. io. IOException ; 
import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path ; 


publie class DeleteHDFSFile | 


y deo 
* @ param args 
* @ throws IOException 
* / 
public static void main(String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length! 21) | 
System. out. println(" parameter error ") ; 
| else | 
Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path hdfs = new Path( args| 0 | ) ; 
fs. delete( hdfs, true) ; 
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7.3.5 实验 步骤 


1 ) 打 开 文 件 ， 运 行程 序 hadoop jar exp. jar HDFSFileCat /experiment/score/math. txt， 如 图 
7-8 所 示 。 





图 7-8 打开 文件 
2) 下 载 文件 ， 运 行程 序 hadoop jar exp. jar DownloadHDFSFile /experiment/score/eng- 
lish. txt . /download. txt, 


3) 查看 是 否 下 和 载 下 来 1， 如 图 7-9 所 示 。 








图 7-9 查看 是 否 下 载 下 来 
4) 再 打开 文件 ， 看 内 容 是 否 正 确 ，cat download. txt， 如 图 7-10 所 示 。 





ODORS Ter ČH per Imenr]$ cat download, TAT 





图 7-10 看 内 容 是 否 正确 





5) 删除 文件 时 ， 先 查看 要 删除 的 文件 ， 如 图 7-11 Bras. 


File: 





cle! 
Goto : experiment go 
fo Sack to dir fisting 
Advanced view, freer aid options 
cet) EL erp 99 ^ Q09Q9Q-- Liu O000#000000X ac Oho Oo Og 0 OO Og000U00HUdg0 
BDEDBDLBmDCBBSSDBDHa3D DOOEOOOD fo0,o00+ BC eee ete eee OZ ges 0222409022 000070 


—^mmmmmmmmmmmmmmmmnm-mmmmim—^mmmmmmmmmammmmmmmmmmnmimTmanmnmnmnmm 





$9990994 99. 9901749991979 9799900999990 490909909 990:9 999909099 9909-999 9949 959494994 4-944999 044 4904 E OG 
9949997 5994999994991 999949 99499999999919 


$0090 9 T EH EHH 19H09 D 4HO- 

$99996999910:6099-00 OOHOOH HOHO- 0090090090000 000000000900000: 000 909090000:0909000600001-0000600:00000000609 6 
TODTOOL OTTO OOOO 

9999:9:9991 999 699-9999 999 


99696696669:60691676. 6660610606 66606106 -6969696:699969699969969999969:9 
Heh Gu OOOO HOHER E te 


图 7-11 查看 要 删除 的 文件 
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6) 运行 程序 hadoop jar exp. jar DeleteHDFSFile /experiment/Textl. txt， 然 后 刷新 页 面 ， 
如 图 7-12 所 示 。 


HTTP ERROR 500 


Problem accessing /browseBlock. jsp. Reason: 
INTERHAI, SERVER ERROR 


Caused by: 


java, lang. NullPointerException P 

org. apache, hadoop. hdfs, server. dat anode, browseBlock j3p. generet eFileChunks (browszeBlock, jsp. java: 299) 
org. apache. hadoop. hdf£z. server. datanade. browseBlock jsp. jspService(browseBlock jsp. java:457) 
org. apache. jasper. runtime. Http] zpBase. service (HttpIzpBaze. java: 3T) 
javax.servlet.http.HttpServlet. service (HttpServlet. java: 820) 

ürg.nartbay. jetty.sarvlaet. ServletHoldar.hasndüle(SaerwlatHolder. jawa:B511) 

org.nortbay. jetty. servlet. ServletHandlerfCachedChain. doFilter(SsrwlatHandler. jaa: 1221) 
org. apache. hadoop. http. HttpServer$QuatingInputFilter. doFilter(Httpserwer. java:835) 

org. nortbay, jetty. servlet, SeryletHandler$ ached hair. doFilter(Servletlandler. java: 1212) 
org.nartbay. jetty. servlet, ServletHandler. handle(ServletHandler. jaar 399) 

org. northay. jetty. security. SecurityHandler. handle (SecurityHandler. java: 216) 

org. morthay. jetty. servlat, SegglonHandler. handle (SessionHandler. jawa: 182) 

org. morthay. jetty. handler, Cont extHandler. handle (ContastHandler. jawa: THÉ) 

ürg.nartbay. jetty. webapp. WebhppCont ext. handle (WebáppContezt. java:dB0 

org. nortbay,. jetty. handler, Cont extHandlerCollection. handle (Cont extHandlerCollectiaor, java: 230) 
org. northay. jetty. handler, Handler¥rapper. handle (HandlecWeepper. javas 152) 

org.nartbay. jetty. Server. handle (Server. jawa: 326) 

org. mortbay. jetty. HttpConnect ion hand leRequert (HttpCaonnect ion. jara: 52) 

org. northay. jetty. HttpConnect ionéRequastHandler. headarComplete(HttpCannect Lon, java:928) 
org.nortbay. jetty. HttpParser.parseWext (HrtpParser. java: 546) 

org. northay, jetty.HttpParser. parsedvailable (HttpParser. java: 212) 

org.nortbay, jetty. HttpConnecticn. handle (HttpConnection. jave: 404) 

ürg.nartbay. in. nio. SelectChannelEndPoint. run(SelectChannelEndPoint. jawa: dll) 

arg.narthay. thread. QuauedThreadPoo) $Pool Theead. run (QueuedThreadPnal. java: 582) 


BRASS RRRAR ARR RRA ARRAS 


Al7-12 ”查看 已 经 删除 的 文件 
7) 出 错 ， 说 明文 件 已 经 不 存在 了 了， 删除 成 功 。 


485€ MapReduce 和 实践 


8.1 JA REUS 


8.1.1 实验 目的 


“数据 去 重 ” 主要 是 为 了 和 擎 握 和 利用 并 行 化 思想 来 对 数据 进行 有 意义 的 猎 选 。 统 计 大 
数据 集 上 的 数据 种 类 个 数 、 从 网 站 日 志 中 计算 访问 地 等 这 些 看 似 庞杂 的 任务 都 会 涉及 数据 去 
重 。 下 面 就 进入 这 个 MapReduce 程序 设计 实例 。 

8.1.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC 。 
2) 软件 : SecureCRT, 











8.1.3 实验 内 容 


对 数据 文件 中 的 数据 进行 去 重 ， 数 据 文件 中 的 每 行 都 是 一 个 数据 。 

样 例 输入 如 下 所 示 : 

1) 文件 一 : 
2012-3-1 a 
2012-32 b 
2012-3-3 c 
2012-3-4 d 
2012-3-5 a 
2012-3-6 b 
2012-3-7 c 
2012-3-3 c 

2) MAF, 
2012-3-1 b 
2012-3-2 a 
2012-3-3 b 
2012-3-4 d 
2012-3-5 a 
2012-3-6 c 
2012-3-7 d 
2012-3-3 c 
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样 例 输出 如 下 所 示 : 
2012-3-1 a 
2012-3-1 b 
2012-32 a 
2012-32 b 
2012-3-3 b 
2012-3-3 c 
2012-3-4 d 
2012-3-5 a 
2012-3-6 b 
2012-3-6 c 
2012-3-7 c 
2012-3-7 d 


8.1.4 实验 原理 


1. 设计 思路 

数据 去 重 的 最 终 目标 是 让 原始 数据 中 出 现 次 数 超过 一 次 的 数据 在 输出 文件 中 只 出 现 一 
次 。 我 们 目 然而 然 会 想到 将 同一 个 数据 的 所 有 记录 都 交 给 一 人 台 reduce 机 釉 ， 无 论 这 个 数据 
出 现 多 少 次 ， 只 要 在 最 终结 果 中 输出 一 次 就 可 以 了 。 具 体 就 是 reduce 的 输入 应 该 以 数据 作 
为 key， 而 对 value-list 则 没有 要 求 。 当 reduce 接收 到 一 个 < key，value-list > 时 就 直接 将 key 
复制 到 输出 的 key 中 ， 并 将 value 设置 成 空 值 。 

Æ MapReduce 流程 中 ，map 的 输出 < key, value > 经 过 shuffle 过 程 聚 集成 < key, value- 
list > 后 会 交 给 reduce。 所 以 从 设计 好 的 reduce 输入 可 以 反 推 出 map 的 输出 key 应 为 数据 ， 
value 任意 。 继 续 反 推 ，map 输出 数据 的 key 为 数据 ， 而 在 这 个 实例 中 每 个 数据 代表 输入 文 
件 中 的 一 行内 容 ， 所 以 map 阶段 要 完成 的 任务 瓯 是 在 采用 Hadoop 默认 的 作业 输入 方式 之 
后 ， 将 value 设置 为 key， 并 直接 输出 (输出 中 的 value 任意 ) 。map 中 的 结果 经 过 shuffle 过 
程 之 后 交 给 reduce, reduce 阶段 不 会 管 每 个 key 有 多 少 个 value， 它 直接 将 输入 的 key 复制 
为 输出 的 key， 并 输出 就 可 以 了 (输出 中 的 value 被 设置 成 空 了 )。 

2. 程序 源码 


import java. io. IOException ; 

















import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path ; 


import org. apache. hadoop. 1o. Text ; 

import org. apache. hadoop. mapreduce. Job ; 

import org. apache. hadoop. mapreduce. Mapper; 

import org. apache. hadoop. mapreduce. Reducer; 

import org. apache. hadoop. mapreduce. lib. input. FileInputFormat ; 
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import org. apache. hadoop. mapreduce. lib. output. FileOutputFormat ; 
public classDedup | 


//map 将 输入 中 的 value 复制 到 输出 数据 的 key 上 ,并 直接 输出 
public static class Map extends Mapper < Object, Text, Text, Text > | 
private static Text line = new Text( ) ;// 每 行 数据 

// SI map PRA 

public void map( Object key, Text value, Context context ) 

throws IOException, InterruptedException | 

line = value ; 


context. write( line, new Text( ^) ) ; 


| 


/ / reduce 将 输入 中 的 key 复制 到 输出 数据 的 key 上 ,并 直接 输出 


publie static class Reduce extends Reducer < Text, Text, Text, Text > | 
// 3 T reduce PKA 


public void reduce( Text key, Iterable < Text > values, Context context ) 
throws IOException, InterruptedException | 


context. write( key, new Text( ^) ) ; 


public static void main( String| | args) throws Exception | 
if( args. length! =2) | 
System. err. printIn(" Usage: Data Deduplication «in > «out >"); 
System. exit(2) ; 
| 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete( result, true) ; 
| 
Job job = new Job( conf, " Data Deduplication ") ; 
job. setJarByClass ( Dedup. class ) ; 


// x Map , Combine 和 Reduce 处 理 类 
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job. setMapperClass( Map. class ) ; 
job. setCombinerClass ( Reduce. class ) ; 


job. setReducerClass ( Reduce. class ) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass ( Text. class ) ; 
job. setOutputValueClass ( Text. class ) ; 


// 设 置 输入 和 输出 目录 
FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 


9 


FileOutputFormat. setOutputPath( job, result) ; 
System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.1.5 实验 步骤 


1) 首先 在 /experiment/dedup/ 文 件 夹 下 上 传 两 个 实例 文件 ， 并 且 创 建 一 个 空 文件 ， 为 了 
一 会 儿 存 放 输 出 数据 ， 如 图 8-1 所 示 。 


Contents of directory /experiment/dedup 








Go back to DFS home 


Local logs 


Log directory 





This is Apache Emdoop relemsc 1.0.1 


图 8-1 创建 文件 夹 
2) 然后 执行 程序 hadoop jar exp. jar Dedup /experiment/dedup /experiment/dedup/result, FJ 
以 在 页 面 下 看 到 运行 进度 ， 运 行 完 毕 后 ， 去 result 文件 中 看 结果 ， 如 图 8-2 和 图 8-3 所 示 。 


File: /experiment/dedup/filel. txt 





图 8-2 查看 示例 文件 一 


从 第 8 章 MapReduce 实践 A 


File: /experiment/dedup/file2. txt 





图 8-3 ”查看 示例 文件 二 
3) 在 页 面 能 看 到 Running Jobs 里 有 一 个 任务 在 运行 。 
4) 打开 这 个 任务 ， 可 以 看 到 任务 里 面 的 内 容 ， 如 图 8-4 所 示 。 


Identifier: 201303250301 Quick Links ^ 





Cluster Summary (Heap Size is 52.06 MB/888. 94 MB) 


gue ce 
Total Occupied Reserved Map Task Blacklisted | Graylisted | Excluded 
Fea Nodes irae Tae 
Tei Tasks Submissions Hap Slots Slots Hap Slots ae ng Capacity Caci i de Nodes Nodes Nodes 
2.00 Q 0 


Scheduling Information 


[Queue Nane | State | Scheduling Information 


[default || running ||N/A 
































Filter (Jobid, Priority, User, Name) 
Example: 'user:snith 3200’ will filter by 'smith' only in the user field and '3200' in all fields 





Jubid Uselt Hap & Hap Maps Reduce % Reduce Reduces Job Scheduling Diagnostic 
Complete |Total |Completed | Complete Total Completed Information Info 

i Data 0. 00% 0. 008 

Job 201303250301 0010 E 

A 


Completed Jobs 


Nap & eae Jub SE ing agnostic 
ee SS ee ee 








图 8-4 ”页 面 浏览 任务 
5) 并 有 旦 可 以 看 到 任务 分 配给 了 哪个 主机 去 运行 ， 如 图 8-5 ~ 图 8-7 所 示 。 








Hadoop job 201303250301 0010 on master 


User: hadanp 

Job Hame: Data Decii ation 

Job File: ndfs: x: :9100/hadoop 
it Host: RE 

Submit Host Address: 192.168.0. 101 

Job-ACLs: All users are allowed 








ing 
Started at: Mon Nar 25 04:44:26 CST 2013 
ng for: sex 
Job El Pending 


Kind |s Complete | Num Taske | Pending Running Complete 
= | | if af 
i} of o 

See BES Total 


SLOTS FILLIS, NAPS 二 o| 3, 955 
J comers eme [ofl 
Data-local map tasks| o| l 


Nap Completion Graph - close 



































图 8-5 ”页 面 浏览 执行 中 的 任务 
6) 运行 完毕 后 ， 打 开 result 文件 ， 点 击 part-r-00000 ， 就 可 以 看 到 输出 的 数据 ， 如 图 
8-8 和 图 8-9 所 示 。 








Hadoop map task list for job 201303250301 0010 on master 


All Tasks 


This is Apache Hadoop release 1.0.1 














图 8-6 页面 浏览 执行 中 的 任务 分 配 


Job iob 201303250301 0010 








All Task Attempts 


Task | mas | aene | m mem settee | Time muanm | Time 








100.00% L, DD ep 29-= FH -2013 01:14:55 


Input Split Locations 


[defaut t-rack/slave? 











| /aefoul t-rack/slavel 





Go back to the job 
Go back to [obIracker 


This is Apache Hadoop release 1.0.1 








图 8-7 ”任务 详情 


Contents of directory /experiment/dedup/result 


Goto : (ESTHER eee 











Local ics 
Log directory 


This is Apache Hadoop release 1.0.1 


图 8-8 查看 输出 数据 














EET 
Camel TES il this fil 
Chunk size to view (in bytes, up to file s DFS block size): 


Total mmber of blocks: 1 
-H925127324055411115: 192.168. 0.102:50010 192. 168.0. 103:50010 





Go back to DFS home 


Toral loose 


图 8-9 ”查看 输出 数据 内 容 
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7) 进行 核对 ， 发 现 已 经 去 重 成 功 。 


8.2 数据 排序 实验 


8.2.1 实验 目的 


“数据 排序 ”是 许多 实际 任务 执行 时 要 完成 的 第 一 项 工作 ， 比 如 学 生成 绩 评 比 、 数 据 
建立 索引 等 。 这 个 实例 和 数据 去 重 类 似 ， 都 是 先 对 原始 数据 进行 初步 处 理 ， 为 进一步 的 数据 
操作 打 好 基础 。 下 面 进 入 这 个 实例 。 

8.2.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


8.2.3 实验 内 容 


1. 实例 描述 

对 输入 文件 中 的 数据 进行 排序 。 输 入 文件 中 的 每 行内 容 均 为 一 个 数字 ， 即 一 个 数据 。 要 
求 在 输出 中 每 行 有 两 个 间隔 的 数字 ， 其 中 ， 第 一 个 代表 原始 数据 在 原始 数据 集中 的 位 次 ， 第 
二 个 代表 原始 数据 。 

2. 样 例 输入 

1) 文件 一 ， 如 图 8-10 所 示 。 


File: /exneriment/sort/filel. txt 




















(go | 








Go dack to dir listing 
Advanced view/downlond options 











图 8-10 查看 样 例文 件 一 
2) 文件 二 : 如 图 8-11 Pra. 
3) 文件 三 ， 如 图 8-12 所 示 。 


8.2.4 ”实验 原理 


1. 设计 思路 
这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ， 熟 悉 MapReduce 过 程 的 读者 会 很 快 想到 在 Ma- 
pReduce 过 程 中 就 有 排序 ， 是 否 可 以 利用 这 个 默认 的 排序 ， 而 不 需要 自己 再 实现 具体 的 排序 
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File: /experiment/sort/file2. txt 





Goto : |experiment/sort [kgo] 





fo dack to dir listing 
Advanced view/download options 




















Chunk size to view (in bytes, up to file's DFS block size): (32768 





图 8-11 查看 样 例文 件 二 





File: /experiment/sort/file3. txt 
| Gota : ['oxporimentison [ge] 


Go back to gir listing 


Advanced view/doemload options 














图 8-12 ”查看 样 例文 件 三 


呢 ? 答案 是 肯定 的 。 

但 是 在 使 用 之 前 首先 需要 了 解 它 的 默认 排序 规则 。 它 是 按照 key 值 进 行 排序 的 ， 如 采 
key 为 封装 int 的 IntWritable 类 型 ， 那 么 MapReduce 按照 数字 大 小 对 key HEF, WR key 为 
封装 为 String 的 Text 类 型 JPA MapReduce 按照 字典 顺序 对 字符 串 排 序 。 

了 解 了 这 个 细 市 ， 我 们 就 知道 了 应 该 使 用 封装 int 的 IntWritable 型 数据 结构 。 也 就 是 在 
map 中 将 读 入 的 数据 转化 成 IntWritable 型 ， 然 后 作为 key 值 输出 (value 任意 ) reduce 拿 到 
«key, value-list > 之 后 ， 将 输入 的 key 作为 value 输出 ， 并 根据 value-list 中 元 素 的 个 数 决 定 
输出 的 次 数 。 输 出 的 key( 即 代码 中 的 linenum) 是 一 个 全 局 变量 ， 它 统计 当前 key 的 位 次 。 
需要 注意 的 是 这 个 程序 中 没有 配置 Combiner， 也 就 是 在 MapReduce 过 程 中 不 使 用 Combiner, 
这 主要 是 因为 使 用 map 和 reduce 就 已 经 能 够 完成 任务 了 。 

2. 程序 源码 


import java. io. IOException ; 











import org. apache. hadoop. conf. Configuration ; 


import org. apache. hadoop. fs. FileSystem ; 


import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


public class Sort | 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


A 第 8 章 
fs. Path; 
io. IntWritable ; 
io. Text; 
mapreduce. Job; 
mapreduce. Mapper; 
mapreduce. Reducer; 
mapreduce. lib. input. FileInputFormat ; 


mapreduce. lib. output. FileOutputFormat ; 


//map 将 输入 中 的 value 化 成 IntWritable 类 型 ,作为 输出 的 key 


publie static class Map extends 


Mapper « Object, Text, IntWritable, IntWritable » | 


private static IntWritable data = new IntWritable( ) ; 


// 39 map 函数 


public void map( Object key , Text value , Context context) 


throws IOException , InterruptedException | 


String line = value. toString( ) ; 
if(line! =null&&! ". equals( line) ) | 
data. set( Integer. parselInt( line) ) ; 


context. write( data, new IntWritable( 1) ) ; 


/ / reduce 将 输入 中 的 key 复制 到 输出 数据 的 key E, 


// 然 后 根据 输入 的 value - list PICK HJ ALD E key 的 输出 次 数 





// 用 全 局 linenum 来 代表 key 的 位 次 
public static class Reduce extends 


Reducer < IntWritable , IntWritable , IntWritable ,IntWritable > | 


MapReduce 实践 A 


private static IntWritable linenum = new IntWritable( 1) ; 


// 3C reduce KIXI 
public void reduce( IntWritable key , Iterable < IntWritable > values, 
Context context) throws IOException, InterruptedException | 
for( IntWritable val: values ) | 


context. write( linenum ,key ) ; 
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linenum = new IntWritable( linenum. get( ) +1) ; 


public static void main( String| | args) throws Exception | 
if( args. length! 22) | 
System. err. println(" Usage: Data Deduplication < in > < out >"); 
System. exit(2) ; 
| 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete (result, true ) ; 
| 
Job job = new Job( conf, "Data Sort") ; 
job. setJarByClass ( Sort. class ) ; 


// 设 置 Map 和 Reduce 人 处理 类 
job. setMapperClass ( Map. class) ; 
job. setReducerClass ( Reduce. class ) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass ( IntWritable. class) ; 
job. setOutputValueClass ( IntWritable. class) ; 


// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args[ 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.2.5 实验 步骤 


1) 首 完 在 文件 夹 /experiment/sort/ 下 上 传 三 个 实例 文件 ， 并 有 旦 创建 一 个 空 文件 ， 为 了 一 
会 儿 存放 输出 数据 ， 如 图 8-13 所 示 。 

2) 然后 执行 程序 hadoop jar exp. jar Sort /experiment/sort /experiment/sort/result, 4E W H 
下 查看 进度 ， 如 图 8-14 和 图 8-15 ra. 
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Contents of directory /experiment/sort 








Local logs 
Log directory 
This is Apache Hadoop release 1.0.1 


图 8-13 ”创建 文件 夹 





Running Jobs 


User Map 第 Tap Reduce Reduce Reduces i is E 
Complete Total D pepe RE Total Completed 


ek kh Bel e —R— 











图 8-14 查看 正在 运行 的 任务 


Hadoop job 201303250301 0011 on master 


User : hadoup 
Job Name : bees no 





Subni t NY master 

Submit Host Address: 132.165.0.101 
Job-ACLs: Al] users are allowed 

Job Setup: Successful 

Status: Running 

Started at: Mon Mar 25 04:48:08 CST 2013 
Running for: &sec 

Job Cleanup: Pending 


[Eneas Balled Led 
ts 


grü 





ob Counters || Launched map tasks | 


eal RET] 
J 





图 8-15 查看 任务 进度 
3) 可 以 看 到 任务 分 配给 谁 去 执行 ， 如 图 8-16 ~ 图 8-18 所 示 。 





Hadoop map task list for job 201303250301 0011 on master 


All Tasks 








Go back to TobTracker 
This is Apache Hadoop release 1.0.1 


图 8-16 ”查看 任务 分 配 
4) 完成 后 可 以 看 到 前 面 是 序号 ， 后面 是 数据 ,已 经 排序 成 功 ， 如 图 8-19 所 示 。 
5) 点 击 part-r-00000 看 数据 ， 如 图 8-20 fra. 








Job job 201303250301 0011 


All Task Attempts 


| Task Attempts Kachine Status Progress = Tine Finish Time terore | 





Task 
Logs 
= = Last JKE 
fdefeult= 100. 00 28-— FH -2013 29- 三 月 -2013 01:18:23 
attempt 201303250301 0011 m OOO000 i bs ^s] EID Em Lea BKE is 


Input Split Locations 


/default-rack/slavez2 
| rdefault—rack/slavel 











Go back to the job 
Go back to InbIrachzr 


This is Apache Hadoop release 1.0.1 


图 8-17 查看 任务 详情 一 





Job job 201303250301 0011 





All Task Attempts 


| mm | le: 00& | 29- 三 月 -2013 29- 三 月 -2013 01:18:32 Last dh 
attenpt 201303250301 0011 m 000001 0 TAREN ^ SUCCEEDED E 01:18:28 (3sec) Ls ast BKB (15 


Input Split Locations 


/default-rack/slave2 
/default-rack/slavel 


Go back to the job 
Go back to InbIracker 




















This is Apache Hadoop release 1.0.1 


图 8-18 查看 任务 详情 二 


Contents of directory /experiment/sort/result 





Goto: [E 








Local logs 
Log directory 


This is Apache Hadoop release 1.0.1 





图 8-19 ”查看 输出 结果 文件 


File: /experiment/sort/result/part-r-00000 - 





Goto : BE 








CU Cm —4 —3 4 —4 —3 Com cm eB G8 MP d RO PO Ie 





ro 一 
Ob ma 























Chunk size to view (in bytes, up to file s DFS block size): 32768 | [ed 


图 8-20 ”查看 输出 结果 文件 内 容 
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8.3 平均 成 绩 实 验 


8.3.1 实验 目的 


“平均 成 绩 ” 主要 目的 还 是 在 重 温 经 典 的 “WordCount” 人 例子 ， 可 以 说 是 在 此 基础 上 的 
微 变化 版 ， 该 实例 主要 就 是 实现 一 个 计算 学 生平 均 成 绩 的 例子 。 


8.3.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC 。 
2) 软件 : SecureCRT, 





8.3.3 实验 内 容 

对 输入 文件 中 的 数据 进行 计算 ， 得 出 学 生 的 平均 成 绩 。 输 入 文件 中 的 每 行内 容 均 为 
一 个 学 生 的 姓名 和 他 相应 的 成 绩 ， 如 果 有 多 门 学 科 ， 则 每 门 学 科 为 一 个 文件 。 要 求 在 
输出 中 每 行 有 两 个 间隔 的 数据 ， 其 中 ， 第 一 个 代表 学 生 的 姓名 ,第 二 个 代表 其 平均 





成 绩 。 

1. 样本 输入 
1) 效 学 : 

张 三 88 
从 四 99 
ER 66 
赵 六 77 
2) 语文 : 

3k — 78 
从 四 89 
ER 96 
赵 六 67 
3 ) A8. 

ge 80 
从 四 82 
干 五 84 
赵 六 86 
2. 样本 输出 
uk 82 
从 四 90 
EA 82 
赵 六 76 
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8.3.4 实验 原理 


1. 设计 思路 

计算 学 生平 均 成 绩 是 一 个 仿 “WordCount” 例 和子， 用 来 重 温 一 下 开发 MapReduce 程序 的 流 
程 。 程 序 包括 两 部 分 的 内 容 : Map 部 分 和 Reduce 部 分 ， 分 别 实现 了 map 和 reduce 的 功能 。 

Map 处 理 的 是 一 个 纯 文本 文件 ， 文 件 中 存放 的 数据 是 每 一 行 表 示 一 个 学 生 的 姓名 和 他 相 
应 的 一 科 成 绩 。Mapper 处 理 的 数据 是 由 InputFormat 分 解 过 的 数据 集 ， 其 中 InputFormat 的 作 
用 是 将 数据 集 切 割 成 小 数据 集 InputSplit， 每 一 个 InputSlit 将 由 一 个 Mapper 负责 处 理 。 此 外 ， 
InputFormat 中 还 提供 了 一 个 RecordReader 的 实现 ， 并 将 一 个 InputSplit 解析 成 < key, value > 
对 提供 给 了 map PRA. InputFormat 的 默认 值 是 TextInputFormat , 它 针 对 文本 文件 ， 按 行将 文 
本 切割 成 InputSlit， 并 用 LineRecordReader 将 InputSplit 解析 成 «key, value > 对 ，key 是 行 在 
文本 中 的 位 置 ，value 是 文件 中 的 一 行 。 

Map 的 结果 会 通过 partion 分 发 到 Reducer，Reducer 做 完 Reduce 操作 后 ， 将 通过 以 格式 
OutputFormat 输出 。 

Mapper 最 终 处 理 的 结果 < key, value > 对 ， 会 送 到 Reducer 中 进行 合并 ,合并 的 时 候 ， 
有 相同 key 的 键 / 值 对 则 送 到 同一 个 Reducer 上 。Reducer 是 所 有 用 户 定 制 Reducer 类 的 基础 ， 
它 的 输入 是 key 和 这 个 key 对 应 的 所 有 value 的 一 个 迭代 器 ， 同 时 还 有 Reducer 的 上 下 文 。 
Reduce 的 结果 由 Reducer. Context 的 write 方法 输出 到 文件 中 。 

2. 程序 源码 


import java. io. IOException ; 




















import java. util. Iterator; 
import java. util. StringTokenizer ; 
hadoop. conf. Configuration ; 


import org. apache. 
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import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


publie class Score 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


一 人 一 


fs. FileSystem ; 


fs. Path; 


io. IntWritable ; 


io. LongWritable ; 


io. Text; 


mapreduce. Job; 


mapreduce. Mapper; 


mapreduce. Reducer; 


mapreduce. 
mapreduce. 
mapreduce. 


mapreduce. 


] 
] 
] 
] 


ib. 
ib. 
ib. 
ib. 


input. FileInputFormat ; 
input. TextInputFormat ; 
output. FileOutputFormat ; 
output. TextOutputFormat ; 
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public static class Map extends 
Mapper < LongWritable, Text, Text, IntWritable > | 
// 实 现 map PRA 
publie void map( LongWritable key, Text value, Context context ) 
throws IOException, InterruptedException | 
// 将 输入 的 纯 文 本 文件 的 数据 转化 成 String 
String line = value. toString( ) ; 
// 将 输入 的 数据 首先 按 行进 行 分 割 
StringTokenizer tokenizerArticle = new StringTokenizer( line, "An ") ; 
// 分 别 对 每 一 行进 行 处 理 
while( tokenizerArticle. hasMoreElements( ) ) | 
// 每 行 按 空格 划分 


StringTokenizer tokenizerLine = new StringTokenizer( 





tokenizerArticle. nextToken( ) ) ; 
String strName = tokenizerLine. nextToken( ) ;// 学 生 姓 名 部 分 
String strScore = tokenizerLine. nextToken( ) ;// 成 绩 部 分 
Text name = new Text( strName ) ; 
int scoreInt = Integer. parseInt( strScore ) ; 
// 输 出 姓名 和 成 绩 


context. write( name, new IntWritable( scoreInt ) ) ; 


publie static class Reduce extends 
Reducer < Text, IntWritable, Text, IntWritable > | 
// 3: Hil reduce PAŽI 
public void reduce( Text key, Iterable < IntWritable > values, 
Context context) throws IOException, InterruptedException | 
int sum - 0; 
int count 20; 
Iterator < IntWritable > iterator = values. iterator( ) ; 
while( iterator. hasNext( ) ) | 
sum + = iterator. next( ). get( ) ;// 计 算 总 分 
count + + ;人 7/ 统计 总 的 科目 数 


int average = (int) sum/count ;// 1] 55-235] JN 2i 


context. write( key, new IntWritable( average) ) ; 
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publie static void main( String| | args) throws Exception | 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete( result, true) ; 
| 
if( args. length! =2) | 
System. err. println(" Usage: Score Average <in > « out >"); 
System. exit(2) ; 
| 
Job job 2 new Job( conf, " Score Average ") ; 
job. setJarByClass ( Score. class ) ; 
// Y & Map Combine 和 Reduce 处 理 类 
job. setMapperClass ( Map. class) ; 
job. setCombinerClass ( Reduce. class ) ; 
job. setReducerClass ( Reduce. class ) ; 
// 设 置 输出 类 型 
job. setOutputKeyClass( Text. class) ; 
job. setOutputValueClass ( IntWritable. class) ; 


// 将 输入 的 数据 集 分 割 成 小 数据 块 splites ,提供 一 个 RecordReder 的 实现 
job. setInputFormatClass ( TextInputFormat. class) ; 

// 提 供 一 个 RecordWriter 的 实现 ,负责 数据 输出 

job. setOutputFormatClass ( TextOutputFormat. class) ; 

// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.3.5 实验 步骤 


1) 首先 把 数据 上 传 到 /experiment/score/ 文件 夹 下 i 并 创建 一 个 空 文件 为 了 存放 输出 的 
数据 ， 如 图 8-21 所 示 。 
2) 然后 执行 程序 hadoop jar exp. jar Score /experiment/score /experiment/score/result， 在 
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Contents of directory /experiment/ score 





Local logs 
Lag directory 


This is Apache Hadosp release 1.0.1 


图 8-21 创建 文件 来 
页 面 下 看 程序 的 运行 进度 ， 如 图 8-22 和 图 8-23 所 示 。 


Running Jobs 


Jobid Priorit 下 mp % Reduce 4 Reduce Reduces Job Scheduling Forum 
y Complete La etd Complete Total Completed Information 
Score 


Camal atad Taha 











图 8-22 ”查看 正在 运行 的 任务 
Hadoop job 201303250301 0012 on master 


User: hadoop 

Job Name: Score plis. 

Job File: hd: sr: g100/hez 
Submit Host = DATE 

Submit Host Address: 132.168.0.101 
Job-ACLs: All users are allowed 








| Kind |% Complete | Num Tasks | Pending | Running | Complete ee - T 
[m [sg [os 1 eo 
eae el ifo [o po oo [o o 











Job Counters 





Launched map tasks 0 


Data-local map tasks 0 D 0 


File Input Format Counters a el Read 0 84 


|HUFS BETES READ — | BYTES READ 306 
FileSystenCounters ood 
FILE BYTES WRITTEN 43, 626 | 0 | 43, 626 


MET output materialized bytes LL 116 


eae cre t input records | ol s| 





























图 8-23 ”查看 任务 进程 
3) 完成 后 查看 输出 结果 ， 已 经 得 到 平均 成 绩 ， 实 验 成 功 ， 如 图 8-24 和 图 8-25 所 示 。 


| Contents of directory /experiment/score/result 





Goto : Jexperiment/ecore/reeult [igo] 








Go back ta DFS home 


Local logs 
Log directory 


This is foache Hadoop release 1.0.1 


K| 8-24 查看 输出 文件 





File: /experiment/score/result/part-r-00000 
Goto : Jexperiment/score/result god 


fo dock to dir listing 
Advanced vicem; domload options 











图 8-25 ”查看 输出 文件 内 容 


8.4 单 表 关联 实验 


8.4.1 实验 目的 

前 面 的 实例 都 是 在 数据 上 进行 一 些 简单 的 处 理 ， 为 进一步 的 操作 打 基 础 。“ 单 表 关 联 ” 
这 个 实例 要 求 从 给 出 的 数据 中 寻找 所 关心 的 数据 ， 它 是 对 原始 数据 所 包含 信息 的 控 据 。 下 面 
进入 这 个 实例 。 





8.4.2 实验 设备 


1) EF: 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


8.4.3 实验 内 容 
实例 中 给 出 child-parent (孩子 一 父母 ) 表 ， 要 求 输出 grandchild-grandparent ( 孙子 一 和 爷 


35) X. 
样 例 输入 如 下 所 示 : 
文件 : 
child parent 
Tom Lucy 
Tom Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Ben 
Jack Alice 
Jack Jesse 


Terry 
Terry 
Philip 
Philip 
Mark 
Mark 


Alice 

Jesse 
Terry 
Alma 


Terry 
Alma 
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家 族 树 状 关系 谱 如 图 8-26 所 示 。 





节 奶 

父母 

孩子 

图 8-26 ”家 族 关 系谱 

样 例 输出 如 下 所 示 : 
文件 : 
grandchild grandparent 
Tom Alice 
Tom Jesse 
Jone Alice 
Jone Jesse 
Tom Mary 
Tom Ben 
Jone Mary 
Jone Ben 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 


8.4.4 实验 原理 


1. 设计 思路 

分 析 这 个 实例 ， 显 然 需要 进行 单 表 连接 ， 连 接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 
且 左 表 和 右 表 是 同一 个 表 。 

连接 结 末 中 除去 连接 的 两 列 就 是 所 需要 的 结 末 一 一 “5randchild--grandparent” 表 。 要 用 
MapReduce 解决 这 个 实例 ; 首先 应 该 考虑 如 何 实现 表 的 月 连接 ; 其 次 就 是 连接 列 的 设置 ; HY 
后 是 结 琳 的 整理 。 
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考虑 到 MapReduce 的 shuffle 过 程 会 将 相同 的 key 会 连接 在 一 起 ， 所 以 可 以 将 map 结果 
的 key 设置 成 得 连接 的 列 ， 人 然后 列 中 相同 的 值 就 目 然 会 连接 在 一 起 了 。 再 与 最 开始 的 分 析 联 
系 起 来 。 

要 连接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 且 左 表 和 右 表 是 同一 个 表 ， 所 以 
在 map 阶段 将 读 入 数据 分 割 成 child 和 parent 之 后 ， 会 将 parent 设置 成 key, child 设 
置 成 value 输出 ， 并 作为 左 表 ; 再 将 同一 对 child 和 parent 中 的 child 设置 成 key, par- 
ent 设置 成 value 进行 输出 ， 作 为 右 表 。 为 了 区 分 输出 中 的 左 、 右 表 ， 需 要 在 输出 的 
value 中 再 加 上 左右 表 的 信息 ， 比 如 在 value 的 String 最 开始 处 加 上 字符 1 XR ZEE, 
加 上 字符 2 表示 右 表 。 这 样 在 map WAR PUE JN T ARMA RK, Ala TE shuffle 过 
程 中 完成 连接 。reduce 接收 到 连接 的 结果 ， 其 中 每 个 key HJ value-list 就 包含 了 
“grandchild--grandparent” 关系。 取出 每 个 key 的 value-list 3# íT fH PT, KA PAY 
child 放 入 一 个 数组 ， 右 表 中 的 parent 放 和 一 个 数组 ， 然 后 对 两 个 数组 求 笛 卡尔 积 就 
是 最 后 的 结 采 了 。 

2. 程序 源码 


import java. io. IOException ; 























import java. util. * ; 


import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


public classSTjoin 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


—— 


conf. Configuration ; 


fs. FileSystem ; 


fs. Path; 


io. Text; 


mapreduce. 


mapreduce 
mapreduce 
mapreduce 


mapreduce 


public static int time =0; 


J sk 


Job; 
. Mapper; 


. Reducer; 


. lib. input. FileInputFormat ; 
. lib. output. FileOutputFormat ; 





x map 将 输出 分 割 child 和 parent, 然 后 正 序 输出 一 次 作为 右 表 , 反 序 输出 一 次 作为 
左 表 , 需 要 注意 的 是 在 输出 的 value 中 必须 加 上 左右 表 的 区 别 标 识 
7 
public static class Map extends Mapper < Object, Text, Text, Text > | 
// SI map PRA 
public void map( Object key, Text value, Context context) 








throws IOException, InterruptedException | 


133 


A 第 8 章 MapReduce 实践 A 


String childname = new String( ) ;//1Z- T 44 ff 
String parentname = new String( ) ;// 父 母 名 称 
String relationtype = new String( ) ;// 7r RER 


// 输 入 的 一 行 预 处 理 文本 

StringTokenizer itr = new StringTokenizer( value. toString( ) ) ; 
String| | values = new String| 2 | ; 

int 1 20; 


while( itr. hasMoreTokens( ) ) | 


values] i | = itr. nextToken( ) ; 


i+ +; 


if( values| 0 |. compareTo(" child")! =0) | 
childname = values| 0 | ; 
parentname = values| 1 | ; 
// 输 出 左 表 
relationtype 2"1 "; 
context. write( new Text( values| 1 | ) , new Text( relationtype +" +" 

+ childname + + + parentname ) ) ; 

// 输 出 右 表 
relationtype = 2 ; 
context. write( new Text( values] 0 | ) ,new Text( relationtype +" +" 


+ childname + + + parentname ) ) ; 


publie static class Reduce extends Reducer < Text ,Text , Text , Text > | 
//3E JW reduce PAZ 
public void reduce( Text key ,Iterable < Text > values, Context context) 
throws IOException, InterruptedException | 
// 输 出 表 头 
if(0 = =time) | 
context. write( new Text( grandchild ) ,new Text( grandparent ") ) ; 
time + +; 


| 


int grandchildnum = 0 ; 
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String| | grandchild = new String| 10 | ; 
int grandparentnum - 0; 


String| | grandparent = new String| 10 | ; 


Iterator ite = values. iterator( ) ; 
while( ite. hasNext( ) ) | 
String record = ite. next( ). toString( ) ; 
int len = record. length( ) ; 
int 1 225 
if(0 = =len) | 


continue ; 


// 取 得 左右 表 标 识 

char relationtype = record. charAt(0) ; 
// ENTIRE E 
String childname = new String( ) ; 





String parentname = new String( ) ; 


//3 HL value - list 中 value 的 child 

while( record. charAt(i)! ='+') | 
childname + = record. charAt(i) ; 
it +; 

| 

1-141; 

// 获 取 value - list 中 value HJ parent 

while( i « len) | 
parentname + = record. charAt(i) ; 


it +; 


// 左 表 , 取 出 child 放 入 grandchildren 
if('1'= =relationtype ) | 
erandchild| grandchildnum | = childname; 


grandchildnum + + ; 


| 
// 右 表 , 取 出 parent WA grandparent 
if('2'- =relationtype ) | 


erandparent[ erandparentnum | = parentname ; 
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grandparentnum + + ; 


// grandchild 和 grandparent ZX2H5K £8 KK AR 
if(0! =grandchildnum&&0! = grandparentnum ) | 
for(int m 20;m « grandchildnum ; m + + ) | 
for(int n 20;n <grandparentnum;n + + ) | 
// F Mia 
context. write( new Text( grandchild| m | ) ,new Text( 


erandparent| n | ) ) ; 


publie static void main( String| | args) throws Exception | 

Configuration conf = new Configuration( ) ; 

FileSystem fs = FileSystem. get( conf) ; 

Path result = new Path( args| 1 | ) ; 

if( fs. exists ( result) ) | 
fs. delete( result, true) ; 

| 

if( args. length! =2) | 
System. err. printIn(" Usage: Single Table Join « in > «out >"); 
System. exit(2) ; 


Job job 2 new Job( conf," Single Table Join ") ; 
job. setJarByClass ( STjoin. class) ; 


//ix & Map 和 Reduce 处 理 类 
job. setMapperClass ( Map. class) ; 
job. setReducerClass ( Reduce. class) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass ( Text. class ) ; 
job. setOutputValueClass ( Text. class) ; 
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// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.4.5 ”实验 步骤 


1. 代码 结果 

1) 首先 上 传 事例 文件 到 /experiment/st. join/ 文 件 夹 下 ， 并 且 创 建 一 个 空 文件 ,方便 存 
放 输 出 数据 。 

2) 运行 程序 hadoop jar exp. jar STjoin /experiment/stjoin /experiment/stjoin/result， 在 页 


面 看 到 进度 ， 如 图 8-27 和 图 8-28 所 示 。 


Hadoop job 201303250301 0014 on master 


Job File: | p/tmnp/mapred/staging/hadoop/. staging/job 201305250301 O014/ob. xml 


S rp em 
Submit Host Address: 192. 169, 0. 101 
Job-ACLs: All users are allowed 
Job Se etup: 
Status: Running 
Start ed at: Ya on Kar 25 04:57:20 CST 2013 
Running for: 3sec 
Job Cleanup: Pending 


z EN 
Kind |% Complete | Num Tasks. Pending | Running | Complete | Killed Task J 
NET a 
D. 00% | 
mae el a | [o 
Counter Hap | Reduce | Total 
SLOTS MILLIS MAPS 0 0| 3, 953 
Job Counterz 















































Launched map tasks | of ol 1 
Data-local map tasks | 0| 0 1 


Nap Completion Graph - cloge - 

















图 8-27 查看 运行 任务 


Running Jobs 


Tubid Priorit Bap % Reduce *5i Reduce Reduces Job Scheduling Diagnostic 
y Complete a E Complete Total Completed Information Info 








站 mm ntad Taho 


图 8-28 查看 任务 进度 
运行 详解 
(1) map 处 理 
map PAZIN th Zr RAE] 8-29 TAR 
(2) shuffle 处 理 
在 shuffle 过 程 中 完成 连接 ， 见 表 8-1 ~ 表 83, 
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child ole LEAT + 

Tome <Lucy: 1-Tom-Lucy-e- 
<Tom: 2-Tom-Lucy--4 

Tome «Jack: 1+TomrJack>e 


<Tom: 2-Tom-Jack-- 


Jone <Lucy: 1+Jone+Lucy>+ 


2+JonetLucy>+ 
Jone Jack: 1+Jone+Jack> 
<Jone: 2+Jonet+Jack>e 
Lucy zMary: 1+Lucy+Mary>+ 
<Lucy: 2+Lucy+Mary> 
Lucy zBen: l-Lucy-Ben-- 
«Lucy: 2+Lucy+Ben>! 
Jacke <Alice: 1+Jack+Alce>+ 
“Jack: 2+Jack+Alce>+! 
Jacke <Jesse: 1+Jack+Jesse>« 
“Jack: 2+Jack+Jesse>e 
Terry+ “Alice: l+Temy+tAlice>+ 
«Tery: 2+Temyt+Alice> 
Tenye «Jesse: 1+TemytJesse>- 
<Temy: 2-Temy-Jesse—e 
Philip+' <Temy: 1-Phihp-Temy-- 
«Philip: 2-Phihp-Temy-- 
Philip <Alma: 1i-Phihp-Alma-- 
zPhihp: 2-Phihp-Alma-- 
Mark «Tery: 1+Mark+Teny>' 
<Mark: 2+Mark+Teny>+ 
Marke <Alma: 1+Mark+Alma> 
<Mark: 2+Mark+Alma> 





图 8-29 map 函数 输出 结 
表 8-1 shuffle 连接 


map 函数 输出 排序 结 shuffle 连接 


« Lucy, 1 +Tom +Lucy > < Alice, 1 + Jack + Alice > < Alice, 1 + Jack + Alice, 
< Tom, 2 + Tom + Lucy > « Alice, 1 + Terry + Alice > 1 + Terry + Alice , 
< Jack, 1 + Tom + Jack > < Alma, 1 + Philip + Alma > 1 + Philip + Alma, 
<Tom, 2 + Tom + Jack > < Alma, 1 + Mark + Alma > 1 + Mark + Alma > 
< Lucy, 1 + Jone + Lucy > < Ben, 1 + Lucy + Ben > < Ben, 1 + Lucy + Ben > 


< Jone, 2 + Jone + Lucy > < Jack, 1 + Tom + Jack > < Jack, 1 + Tom + Jack, 





表 8-2 无 效 及 有 效 的 shuffle 连接 
无 效 的 shuffle 连接 有 效 的 shuffle 连接 


< Alice, 1 + Jack + Alice, 
] + Terry + Alice , « Jack, 1 + Tom + Jack, 
1 + Philip + Alma, 1 + Jone + Jack, 
1 + Mark + Alma > 
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无 效 的 shuffle 连接 有 效 的 shuffle 连接 


<Ben, 1 * Lucy * Ben > 

2 + Jack + Alice, 
< Jesse, 1 + Jack + Jesse, 

2 + Jack + Jesse > 
1 + Terry + Jesse > 
< Lucy, 1 + Tom + Lucy, 

< Jone, 2 + Jone + Lucy, 

1 + Jone + Lucy, 

2 + Jone + Jack > 
2 + Lucy + Mary, 


< Mary, 1 + Lucy + Mary, 
iu d " 2 + Lucy + Ben > 


2 + Mark + Terry, 


< Terry, 2 + Terry + Alice, 
2 + Mark + Alma > zu zt 


2 + Terry + Jesse, 
< Philip, 2 + Philip + Terry, 


1 + Philip + Terry, 
2 + Philip + Alma > 


1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy, 


2 + Tom + Jack > 


< Jack, 1 + Jone + Jack > 
< Jone, 2 + Jone + Jack > 
< Mary, 1 + Lucy + Mary > 
< Lucy, 2 + Lucy + Mary > 
< Ben, 1 + Lucy + Ben > 
< Lucy, 2 + Lucy + Ben > 
< Alice, 1 + Jack + Alice > 
< Jack, 2 + Jack + Alice > 
< Jesse, 1 + Jack + Jesse > 
< Jack, 2 + Jack + Jesse > 
< Alice, 1 + Terry + Alice > 
< Terry, 2 + Terry + Alice > 
< Jesse, 1 + Terry + Jesse > 
< Terry, 2 + Terry + Jesse > 
< Terry, 1 + Philip + Terry > 
< Philip, 2 + Philip + Terry > 
< Alma, 1 + Philip + Alma > 
< Philip, 2 + Philip + Alma > 
< Terry, 1 + Mark + Terry > 
< Mark, 2 + Mark + Terry > 
< Alma, 1 + Mark + Alma > 
< Mark, 2 + Mark + Alma > 








(3) Reduce 处 理 


X 8-3 shuffle 连接 过 程 


< Jack, 1 + Jone + Jack > 
« Jack, 2 + Jack + Alice > 
« Jack, 2 + Jack + Jesse > 
< Jesse, 1 + Jack + Jesse > 
< Jesse, 1 + Terry + Jesse > 
< Jone, 2 + Jone + Lucy > 
< Jone, 2 + Jone + Jack > 
< Lucy, 1 + Tom + Lucy > 
< Lucy, 1 + Jone + Lucy > 
< Lucy, 2 + Lucy + Mary > 
< Lucy, 2 + Lucy + Ben > 
< Mary, 1 + Lucy + Mary > 
< Mark, 2 + Mark + Terry > 
< Mark, 2 + Mark + Alma > 
< Philip, 2 + Philip + Terry > 
< Philip, 2 + Philip + Alma > 
< Terry, 2 + Terry + Alice > 
< Terry, 2 + Terry + Jesse > 
< Terry, 1 + Philip + Terry > 
< Terry, 1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy > 


<Tom, 2 + Tom + Jack > 


1 + Jone + Jack, 
2 + Jack + Alice, 
2 + Jack + Jesse > 
< Jesse, 1 + Jack + Jesse, 
1 + Terry + Jesse > 
< Jone, 2 + Jone + Lucy, 
2 + Jone + Jack > 
< Lucy, 1 + Tom + Lucy, 
1 + Jone + Lucy, 
2 + Lucy + Mary, 
2 + Lucy + Ben > 
< Mary, 1 + Lucy + Mary, 
2 + Mark + Terry, 
2 + Mark + Alma > 
< Philip, 2 + Philip + Terry, 
2 + Philip + Alma > 
« Terry, 2 + Terry + Alice, 
2 + Terry + Jesse, 
] + Philip + Terry, 
1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy, 


2 + Tom + Jack > 


首先 由 语句 “0 ! = grandchildnum && 0 ! = grandparentnum” 得 知 ， 只 要 在 “value- 
list” 中 没有 左 表 或 者 在 表 ， 则 不 会 做 处 理 ， 可 以 根据 这 条 规则 去 除 无 效 的 shuffle 连接 。 然 
后 根据 下 面 的 语句 进一步 对 有 效 的 shuffle 连接 做 处 理 . 
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// 左 表 , 取 出 child 放 入 grandchildren 
if('1'= =relationtype ) | 
erandchild| grandchildnum | = childname ; 


grandchildnum + + ; 


// 右 表 , 取 出 parent WA grandparent 
if('2'- =relationtype ) | 
erandparent[ erandparentnum | = parentname ; 


erandparentnum + + ; 


] 
针对 一 条 数据 进行 分 析 : 





« Jack, 1 + Tom + Jack, 
1 + Jone + Jack, 
2 + Jack + Alice, 
2+Jack + Jesse > 


分 析 结 采 ， ERM "CEU Xm, ABA F2” Xen, EIEN <key, value-list > 
PHJ “key? 表示 左 表 与 右 表 的 连接 键 。 而 “value-list” 表 示 以 “key” 连 接 的 左 表 与 右 表 的 
相关 数据 。 

根据 上 面 针 对 左 表 与 右 表 不 同 的 处 理 规则 ， 取 得 两 个 数组 的 数据 见 表 8-4。 

表 8-4 两 个 数组 的 数据 


grandchild Tom, Jone( grandchild| grandchildnum | = childname; ) 























grandparent Alice, Jesse( grandparent| grandparentnum | = parentname; ) 





然后 根据 下 面 的 语句 进行 处 理 : 


for(int m 20;m < grandchildnum ; m + + ) | 
for(int n 20; n « grandparentnum ;n + + ) | 
context. write( new Text( grandchild| m | ) , new 


Text ( grandparent| n | ) ) ; 








处 理 结果 如 图 8-30 所 示 。 

其 他 的 有 效 shuffle 连接 处 理 
都 是 如 此 。 最 后 输出 结果 和 正常 
关系 图 相符 ， 实 验 成 功 ， 如 图 
8-31 所 示 。 








图 8-30 ”处 理 结 


"s 


A Bl YN 0 S 





图 8-31 查看 输出 结果 文件 
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9.1 实验 目的 


1) 了 解 云 存 储 的 原理 。 
2) 掌握 云 存 储 的 核心 技术 。 


9.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
9.3 实验 内 容 


1) 操作 存储 云 项 目 。 
2) 从 后 台 看 到 运行 过 程 。 


9.4 实验 原理 


L ER 
public classUploadFileServlet extends HttpServlet | 
private static final longserialVersionUID = 1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


publicUploadFileServlet () | 








super (); 
|] 
/ * 
* 处 理 用 户 提 交 的 文件 ， 把 用 户 提交 的 文件 写 人 到 HDFS 中 
E A 


public void doPost ( HttpServletRequest request, HttpServletResponse response ) 
throws ServletException, IOException | 


// 设 置 request 编码 ， 主 要 是 为 了 处 理 普 通 输入 框 中 的 中 文 问 题 
request. setCharacterEncoding ("utf-8 ") ; 
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// 这 里 对 request 进行 封装 ， RequestContext 提供 了 对 request 多 个 访问 方法 
RequestContext requestContext = new ServletRequestContext (request) ; 
UserBean ub = (UserBean) request. getSession ( ) . getAttribute ("user"); 
if (ub= =null) | 
request. getRequestDispatcher ("/login. jsp") . forward (request, 
response ) ; 
| else | 
if ( FileUpload. isMultipartContent (requestContext) ) | 
DiskFileltemFactory factory = new DiskFileItemFactory ( ) ; 
// 设 置 文件 的 缓存 路 径 
File temp = new File ("/hadoop/tomcat/temp/"); 
if (! temp. exists ()) | 
temp. mkdir ( ) ; 
| 
factory. setRepository (temp); 
ServletFileUpload upload = new ServletFileUpload (factory) ; 
// 设 置 上 传 文件 大 小 的 上 限 ，-1 表示 无 上 限 
upload. setSizeMax (1024 * 1024 * 1024) ; 
List <? »items 2 new ArrayList ( ) ; 





try | 
[上 传 文件 ， 并 解析 出 所 有 的 表单 字段 ， 包 括 普通 字段 和 文件 字段 
items = upload. parseRequest (request) ; 


| catch (FileUploadException el) | 
System. out. prinln. ("文件 上 传 发 生 错 误 " + el. getMessage ()) ; 








| 
// 下 面 对 每 个 字段 进行 处 理 ， 分 普通 字段 和 文件 字段 
(); 





Iterator <? >it =items. iterator 
while (it. hasNext ()) | 
Fileltem fileltem = (Fileltem) it. next ( ) ; 
// 如 条 是 普通 字段 
if (fileltem. isFormField ()) | 
System. out. println ( fileltem. getFieldName ( ) 





Qu'on 
+ fileltem. getName ( ) 
anon 
+ new String (fileltem. getString () . getBytes ( 
"iso8859-1"), "gbk ") ) ; 
| else | 


" 


System. out. println ( fileltem. getFieldName () +" 
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+fileltem. getName () +" " 
+ fileltem. isInMemory () +" T 
+ fileltem. getContentType () +" " 
+ fileltem. getSize ( ) ) ; 
[保存 文件 ， 其 实 就 是 把 绥 存 里 的 数据 写 到 目标 路 径 下 
if (fileltem. getName ()! -null 
&&fileltem. getSize ()! =0) | 
// File fullFile = new File (fileltem. getName ( )) ; 
String | | array =fileltem. getName () .split ("V \ V V); 








File newFile = new File ("/hadoop/tomcat/" 
+ array | array. length-1 | ) ; 
try | 
fileltem. write ( newFile) ; 
| catch (Exception e) | 
e. printStackTrace () ; 
| 
String dst ="/tomcat/users/"+ ub. getUserld ( ) 
t "/files/" + newFile. getName ( ) ; 
InputStream in = new BufferedInputStream ( 
new FileInputStream ( newFile) ) ; 
/开始 往 HDFS 中 写 入 文件 
FileSystem fs = FileSystem. get (conf) ; 
Path path = new Path (dst) ; 
if (fs. exists (path) ) | 
if (newFile. exists ()) | 
newFile. delete ( ) ; 
| 
request. getRequestDispatcher ( 
"/error. jsp? result = 上 传 的 文件 已 存在 ! ") . forward ( 
request, response ) ; 
| else | 
OutputStream out = fs. create ( path, 
new Progressable () | 
public void progress () | 
//TODO Auto-generated method 
/ / stub 


System. out. println ("*") ; 
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IOUtils. copyBytes (in, out, 4096, true) ; 
IOUtils. closeStream ( in) ; 
IOUtils. closeStream (out) ; 
LEAI 
FileStatus stat = fs. getFileStatus (path) ; 
// 更 新 用 户 的 sesion 信息 
ub. setCloudSize (ub. getCloudSize ( ) 
-stat. getLen ( ) ) ; 
DerbyUtilCase. updateUserStatus (ub) ; 
if (newFile. exists ()) | 
newFile. delete ( ) ; 
| 
if (ub. getUserld () . equals ("admin") ) | 
request. getRequestDispatcher ("/unlimit. jsp ") 
. forward (request, response); 
| else | 
request. getRequestDispatcher ( "/limited. jsp ") 


. forward (request, response); 


| 


| else | 


System. out. println. ("path is null. ") ; 


| 

2. 下 载 文件 

publie classDownloadFileServlet extends HttpServlet | 
private static final longserialVersionUID = 1L; 


private static final Configuration conf = new Configuration ( ) ; 


7 * 
* 处 理 用 户 下 载 的 文件 请 求 ， 用 户 提 交 一 个 文件 名 称 ， 系 统 从 HDFS 读 取 该 文 
件 ， 然 后 传输 给 用 户 
A 
public voiddoGet ( HttpServletRequest request, HttpServletResponse response ) 
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throws ServletException, IOException | 
// 358 FAP Bre E B C PE 
request. setCharacterEncoding ("utf-8 ") ; 
UserBean ub = (UserBean) request. getSession ( ) . getAttribute ("user"); 
if (ub = 2 null) | 
request. getRequestDispatcher ("/login. jsp") . forward (request, 
response ) ; 
| else | 
// 获 取 用 户 提 区 的 文件 名 称 
String uuidname = new String (request. getParameter ("filename ") 
. getBytes ("ISO-8859-1 ") , "UTF-8") ; 
File f = new File ("hadoop/tomcat/temp/" + uuidname ) ; 
String dst ="/tomcat/users/"+ ub. getUserld () +"/files/" 





+ uuidname ; 

/开始 从 HDFS 上 读 取 文件 
FileSystem fs = FileSystem. get (conf) ; 
InputStream hadopin = null; 
OutputStream bos = new BufferedOutputStream (new FileOutputStream (f) ) ; 
Path hdfsPath = new Path (dst); 
if (! fs. exists (hdfsPath)) | 

request. getRequestDispatcher ("/error. jsp? result = 下 载 资 源 不 存在 ! ") 


. forward (request, response); 





| else | 
try | 
hadopin = fs. open ( hdfsPath ) ; 
IOUtils. copyBytes (hadopin, bos, 4096, true) ; 
| finally | 
IOUtils. closeStream  ( hadopin ) ; 
bos. close () ; 
| 
// 读 取 文 件 结 
String realname = uuidname. substring (uuidname. indexOf (" ") +1) 
/开始 给 客户 端 传送 文件 
if (f. exists ()) | 
/设置 应 答 的 相应 消息 头 
response. setContentType (" application/x-msdownload ") ; 
String str =" attachment; filename =" 
+ java. net. URLEncoder. encode (realname, "utf-8 ") ; 


response. setHeader (" Content-Disposition ", str); 
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// 创 建 一 个 输入 流 对 象 和 指定 的 文件 相关 联 
FileInputStream in = new FileInputStream (f); 
// M. response 对 象 中 获取 到 输出 流 对 象 
OutputStream out = response. getOutputStream ( ) ; 
// 从 输入 流 对 象 中 该 数据 写 人 到 输出 流 对 象 中 
byte | | buff =new byte | 1024 * 1024 | ; 
int len 20; 
while ( (len 2 in. read (buff) )) 0) | 
out. write (buff, O, len); 
f. delete (); 
in. close (); 
out. close ( ) ; 
| else | 
request. getRequestDispatcher ("/error. jsp? result = 下 载 资源 不 存在 ! ") 


. forward (request, response) ; 


9.5 实验 步 又 


1) 首先 用 浏览 大 登录 云 平 台 http: //master; 8080/education, 
2) 然后 输入 账户 密码 登录 。 管 理 员 账户 admin, %45 admin， 其 他 用 户 使 用 前 需要 注 
Jr, Anf 9-1 所 示 。 


云 计算 实 训 项 目 





类 om mamme 


没有 帐号 9 请 注册 
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图 9-1 登录 界面 
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3) 登录 进去 后 可 以 看 到 五 个 实验 项 目 ， 如 图 9-2 ras. 


E 





P usus H 








智能 EMS 速 递 云 微 信 关系 分 析 





图 9-2 项 目 界面 
4) 第 一 个 实验 项 目 : 个 人 私有 云 存 储 。 点 击 图 标 ， 进 入 之 后 会 是 一 个 操作 界面 ， 如 图 


9-3 所 示 。 
. 参 个 人 私有 存储 系统 
i zRHidE 
BE 0 8 日 记 标 题 : 


zxBES 
Hina: 
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图 9-3 新建 云 日 记 
5) 首先 使 用 新 建 日 记功 能 ， 输 入 一 个 标题 和 日 记 内 容 ， 如 图 9-4 所 示 。 然 后 点 击 上 传 ， 


会 出 现 操作 成 功 的 页 面 ， 如 图 9-5 所 示 。 
LA 个 人 私有 存储 系统 


P B 新建 云 日 记 
面 zormi 
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图 9-4 输入 日 记 内 容 
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操作 成 功 ! 


BT mi HDFSERET GE 
hafs master 8100 


BEL Rit 
i Ej 





图 9-5 ”操作 成 功 
6) 因为 使 用 的 管理 员 账 户 登 录 ， 所 以 可 以 直接 点 击 给 出 的 网 址 进入 到 后 台 查 看 。 
7) 跳 转 到 Hadoop 的 文件 浏览 器 ， 如 图 9-6 所 示 ， 其 他 账户 是 不 可 以 的 。 


Contents of directory / 








Local logs 


Log directory 


This is Apache Hadoop release 1.0.1 


图 9-6 页 面 浏览 文件 
8) 然后 可 以 通过 云 文件 预览 ， 数 据 在 notes 里 面 ， 如 图 9-7 所 示 。 
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图 9-7 云 文 件 预先 文件 夹 
9) 在 这 里 面 可 以 看 到 已 经 存在 的 日 记 ， 如 图 9-8 所 示 。 
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图 9-8 云 文件 预览 文件 
10) 点 击 进 入 可 以 查看 内 容 ， 如 图 9-9 所 示 。 
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图 9-9 云 文 件 浏 览 内 容 
11) 上 传 成 功 之 后 ， 存 储 空间 都 会 相应 减少 ， 再 上 传 一 个 文件 ,测试 一 下 ， 如 图 9-10 所 示 。 
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图 9-10 ”编写 测试 日 记 内 容 
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12) 上 传 后 的 大 小 比 之 前 少 了 ， 如 图 9-11 所 示 。 
LÁ 个 人 私有 存储 系统 
B 新 建 云 日 记 


B EEEN 空间 剩余 : 10785781310 Bytes 
bg 
a 
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到 文件 预览 2013-5-27.note file lo.01KB2 f 
m Etm [222.note fle p.o1 Ke2 je 
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图 9-11 浏览 空间 剩余 


13) 之 后 使 用 第 二 个 功能 ， 删 除 刚才 测试 的 文件 ， 如 图 9-12 所 示 。 
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图 9-12 云 日 记 删 除 
14) 点 击 删 除 后 会 出 现 操 作成 功 的 界面 ， 如 图 9-13 所 示 。 


操作 成 功 ! 


Ah Tam SS HDESEERES GS 
hdfs:master S100 
EER 


ds [e 


图 9-13 ”删除 成 功 
15) 可 以 看 到 目录 下 已 经 没有 之 前 的 文件 了 了 ， 如 图 9-14 Aras, 
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ou và, SC P pe 


图 9-14 
刚才 上 传 的 都 是 文本 文件 ， 还 可 以 上 传 其 他 格式 的 文件 ， 如 图 9-15 所 示 。 


16) 
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图 9-15” 云 文件 上 传 
17) 上 传 成 功 后 再 去 浏览 一 下 ， 如 图 9-16 所 示 。 
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图 9-16 浏览 文件 夹 
18) 进入 files 文件 夹 下 ， 可 以 看 到 文件 ， 如 图 9-17 所 示 。 
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图 9-17 浏览 上 传 文件 
19) 当 看 到 这 个 云 上 有 什么 资源 时 ， 可 以 通过 云 文件 下 载 ， 来 获得 资源 ， 如 图 9-18 所 示 。 





, 个 人 私有 存储 系统 
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图 9-18 云 文件 下 载 
20) 点 击 下 载 ， 就 可 以 看 到 浏览 器 已 经 开始 下 载 ， 如 图 9-19 所 示 。 
© 添加 新 下 载 
有 从 网址 : http://master:8080/education/downloadfile?filename- 96E5969096, 


下 载 到 : NEU M Du... 





友 小 : 119B CHH : 1971GB 
用 迅雷 下 载 交 直接 打开 下 载 Hus 
图 9-19 下载 界面 


21) 然后 也 可 以 删除 云 上 的 文件 ， 如 图 9-20 所 示 。 
22) 可 以 看 到 文件 已 经 删除 ， 如 图 9-21 所 示 。 
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图 9-20 云 文 件 删 除 


Wet Hiero 2013 ‘Sr aitan 








Es 新 建 去 日 记 
云 日 记 删 除 





Fee Ghee s 
ZTA 
BPH 
云 文件 册 除 


EM [i] [e [^ 





23) 上 面 是 云 存储 最 
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图 9-21 浏览 删除 文 
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简单 的 实例 ， 使 用 到 了 HDFS 来 制作 。 
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10.1 实验 目的 


1) 熟悉 云 计 算 的 原理 。 
2) 擎 握 云 计算 的 根本 技术 。 





10.2 ”实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
10.3 RA 


1) 操作 气象 数据 分 析 云 项 目 。 
2) 分 析 云 计算 的 原理 。 





10.4 ”实验 原理 


1. 分 析 天 气 数据 
public class WeatherParsingServlet extends HttpServlet | 
private static final long serialVersionUID =1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public WeatherParsingServlet ( ) | 
super( ) ; 


ff * 
* Map 任务 ,用 于 从 HDFS 上 读 取 天 气 数据 文件 ,然后 分 析 这 些 数 据 文 件 ,每 一 条 数 
据 代 表 一 日 的 天 气 信息 ,然后 把 这 些 数据 文件 传输 给 Reduce 任务 
publie static class MeteorologicalMapper extends 


Mapper « LongWritable , Text , Text , MeteorologicalBean » | 
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public static enum Counters 


ROWS 


// 读 取 一 行 数据 后 ,该 方法 就 开始 处 理 
publie void map( LongWritable key , Text value, Context context ) 
throws IOException, InterruptedException | 
String| | array = value. toString( ). split("\t") ; 
if( array. length = 22) | 
String| | metes = array| 1 |. split(";") ; 
if( metes. length = 23) | 
try | 
String| |temps = metes| 0 |. substring( 
metes | 0 |. indexOf("(") +1, 
metes| 0 |. indexOf(")") ). split("/") ; 
MeteorologicalBean mb = new MeteorologicalBean( ) ; 
if( temps. length = =2) | 
mb. setMaxTemp( Float. parseFloat( temps] 0 |. substring( 
temps] 0 |. indexOf(" max;") +"max:". length( ) , 
temps| 0 |. indexOf( C") ) ) ) ; 
mb. setMinTemp( Float. parseFloat( temps| 1 |. substring( 
temps| 1 |. indexOf(" min;") +" min;". length( ) , 
temps| 1 |. indexOf( C") ))) ; 
| 
String humidity = metes| 1 |. substring( 
metes| 1 |. indexOf("(") +1, 
metes| 1 |. indexOf(")") ) ; 
mb. setHumidity ( Float. parseFloat ( humidity. substring(O, 
humidity. indexOf("%") ) ) ) ; 
String WSP = metes| 2 |. substring( 
metes| 2 |. indexOf("(") +1, 
metes| 2 |. indexOf(")") ) ; 
mb. setWSP( Float. parseFloat( WSP. substring(O, 
WSP. indexOf(" m/s ") ) ) ) ; 
context. write ( 
new Text(array| 0 |. substring (0, 
array | 0 |. lastIndexOf( "-") ) ) , mb) ; 
context. getCounter( Counters. ROWS ). increment( 1 ) ; 
| catch ( Exception e) | 
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e. printStackTrace( ) ; 


7 s 
x Reduce 任务 类 ,该 类 用 户 处 理 Map 任务 提交 过 来 的 每 日 天 气 数 据 信 息 ,然后 把 这 
些 信息 相 加 并 平均 ,最 后 把 结果 写 人 HDFS 文件 当中 去 
*/ 


public static class MeteorologicalReducer extends 





Reducer < Text , MeteorologicalBean , Text , Text > | 
public void reduce( Text key , Iterable < MeteorologicalBean > values, 
Context context) throws IOException , InterruptedException | 
int count =O; 
float maxTempTotal =0. Of; 
float minTempTotal =0. Of; 
float humidityTotal = 0. Of; 
float WSPTotal =0. Of; 
for ( MeteorologicalBean mb: values ) | 
count + +; 
maxTempTotal + = mb. getMaxTemp( ) ; 
minTempTotal + = mb. getMinTemp( ) ; 
humidityTotal + = mb. getHumidity( ) ; 
WSPTotal + =mb. getWSP( ) ; 
| 
context. write( key , new Text(" AVG | Temp( max:" + maxTempTotal/count 
+"C/min :" + minTempTotal/count "C ) ; Humidity ( " 
+ humidityTotal/count +"% ) ; WSP(" + WSPTotal/count 
+"m/s)1")); 


PE 
* 处 理 用 户 提 交 的 天 气 数 据 云 计算 分 析 , 用 户 提交 了 分 析 的 命令 以 后 ,该 方法 会 回 
Hadoop 集群 提交 一 个 Map/Reduce 任务 ,用 于 执行 天 气 分 析 的 任务 
* / 
public void doGet( HttpServletRequest request , HttpServletResponse response ) 
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throws ServletException , IOException | 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
if( ub = - null) | 

request. getRequestDispatcher( "login. jsp "). forward( request, 
response ) ; 

| else if (ub. getUserld( ). equals(" admin") ) | 

FileSystem fs = FileSystem. get( conf) ; 

Path out = new Path( "/tomcat/experiment/weathercloud/ results ") ; 

if ( fs. exists( out) ) | 

fs. delete ( out, true ) ; 
| 
/开始 生成 处 理 天 气 数 据 的 Map/Reduce 任务 job 信息 ,然后 提交 给 Hadoop 
集群 开始 执行 

Job job = new Job( conf," Parsing Meteorological Data ") ; 

job. setJarByClass ( WeatherParsingServlet. class) ; 

Path in = new Path("/tomcat/experiment/weathercloud/uploaddata ") ; 

FileInputFormat. setInputPaths( job ,in ) ; 

FileOutputFormat. setOutputPath ( job out ) ; 


job. setMapperClass ( MeteorologicalMapper. class ) ; 


job. setReducerClass ( MeteorologicalReducer. class) ; 


job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( TextOutputFormat. class ) ; 
job. setOutputKeyClass ( Text. class) ; 

job. setOutputValueClass ( MeteorologicalBean. class ) ; 


job. setNumReduceTasks( 1 ) ; 
// 生 成 job 信息 完成 
try | 
// 提 交 job 给 Hadoop 集群 ,然后 Hadoop 集群 开始 执行 
job. submit( ) ; 
request. getRequestDispatcher(  mrlink. jsp "). forward( request, 
response ) ; 
| catch ( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
request. getRequestDispatcher( 
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"error. jsp? result = 任务 作业 提交 失败 ,请 查看 集群 是 否 正 篆 
运行 . "). forward( 


request ,response ) ; 


2. 处 理 分 析 结 末 

publie class PreviewWeatherResultServlet extends HttpServlet | 
private static final longserialVersionUID = 1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public PreviewWeatherResultServlet ( ) | 


| 


/ * 

* 处 理 用 户 提交 的 浏览 云 计算 天 气 数据 的 结果 ,服务 端 谈 取 mapreduce 计算 的 生成 
的 结 打 文件 ,然后 把 信息 返回 给 客户 端 

*/ 





public void doGet( HttpServletRequest request, HttpServletResponse response) 
throws ServletException , IOException | 
/ / request. setCharacterEncoding ( Charset. defaultCharset( ). toString( ) ) ; 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
if( ub = - null) | 
request. getRequestDispatcher( "login. jsp"). forward ( request, 
response ) ; 
| else | 
// 开 始 读 取 结果 文件 
FileSystem fs = FileSystem. get( conf) ; 
Path. success = new Path( 
"/tomcat/ experiment/ weathercloud/results/ SUCCESS ") ; 
if( | fs. exists(. success) ) | 
request. setAttribute( " result ", null) ; 
request. getRequestDispatcher("/weatherresult. jsp "). forward( 
request , response ) ; 
| else | 


request. setAttribute( " result ",™) ; 


? 
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Path reduceRusult = new Path( 
"/tomcat/ experiment/ weathercloud/results/ part-r-00000 ") ; 
if( fs. exists ( reduceRusult ) ) | 
FSDatalnputStream fsdis = fs. open( reduceRusult ) ; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
int count =O; 
float maxTempTotal = 0. Of; 
float minTempTotal = 0. Of; 
float humidityTotal = 0. Of; 
float WSPTotal =0. Of; 
//2012-01 
// ANG | Temp ( max; 21. 754515°C/min; 12. 678706 ) ; Humidity 
(46. 571696 ) ; WSP(19. 337095m/3s) | 
[开始 汇总 读 取 到 的 每 一 行 数 据 文件 ,主要 的 操作 是 把 所 有 结 末 
ASL ES ,然后 返回 给 客户 端 
while( (line = br. readLine( ))! = null) | 
String| | array = line. split("\t") ; 
if( array. length = 22) | 
MonthBean monBean = new MonthBean( ) ; 
String value = array| 1 |. substring( 
array| 1 |. indexOf("|") +1, 
array| 1 |. indexOf("}") ) ; 
String| | metes = value. split(";") ; 
if( metes. length = =3) | 
try | 
String| |temps = metes] 0 |. substring ( 
metes| 0 |. indexOf("(") +1, 
metes [ 0 |. indexOf( ") ") ). split ('V 


if( temps. length = =2) | 


monBean. setMaxTemp( Float. parseFloat( temps| 0 |. substring ( 
temps| 0 |. indexOf(" max ;" 
+" max:". length( ) , 
temps] 0 |. indexOf(*C") ) ) ) ; 


maxTempTotal + = monBean. getMaxTemp( ) ; 
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monBean. setMinTemp( Float. parseFloat( temps| 1 |. substring( 
temps| 1 |. indexOf(" min ;" 
+"min;". length( ) , 
temps] 1 |. indexOf(*C") ) )) ; 
minTempTotal + = monBean. getMinTemp( ) ; 

| 
String humidity = metes| 1 |. substring( 

metes| 1 |. indexOf("(") +1, 

metes| 1 |. indexOf(")") ) ; 
monBean. setHumidity ( Float 

. parseFloat( humidity. substring (0 , 

humidity. indexOf("%") ) ) ) ; 

humidityTotal + = monBean. getHumidity ( ) ; 
String WSP = metes| 2 |. substring( 

metes| 2 |. indexOf("(") +1, 

metes| 2 |. indexOf(")") ) ; 
monBean. setWSP( Float. parseFloat( WSP 

. substring( 0, WSP. indexOf(" m/s") ) ) ) ; 
WSPTotal + = monBean. getWSP( ) ; 
count + + ; 
| catch( Exception e) | 

e. printStackTrace( ) ; 


] 
System. out. println( array | O |. split("-) | 1] ) ; 
request. setAttribute( array | O |. split("-) | 1], 


monBean ) ; 


| 

// 读 取 结 果 文 件 完 成 

//2012-12 

// AVG | Temp ( max; 21.760002°C/min; 13.001612°C ); Humidity 
(51. 9754996 ) ; WSP(21. 388714m/5s) | 

request. setAttribute( " maxTemp ", maxTempTotal/count ) ; 

request. setAttribute(" minTemp ", minTempTotal/count ) ; 

request. setAttribute( " humidity ", humidity Total/count ) ; 

request. setAttribute( " WSP ", WSPTotal/count ) ; 

request. getRequestDispatcher("/weatherresult. jsp "). forward( 


request , response ) ; 
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| else | 


request. setAttribute( " result ", null) ; 


10.5 实验 步 又 


第 三 个 实验 项 目 : 气象 数据 分 析 。 
1) 进入 之 后 是 一 个 操作 页 面 ， 如 网 10-1 所 示 。 


|. esas e 


erte 
全 文件 下 载 








t CREME LE 


m sexuemps 点 击 下 载 示例 文件 : Ta 
eee 气象 数据 计算 
RES 
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图 10-1. 实例 文件 下 载 
2) 进入 之 后 首先 有 一 个 实例 下 载 ， 点 击 下载 ， 如 图 10-2 所 示 。 


CHEER : 19.69GB 


HRE hee Y 





图 10-2 FRA H 
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3) 下 载 成 功 ， 打 开 查 看 实例 文件 内 容 ， 如 图 10-3 所 示 。 







Bl FEE 
2012-01-01 Temp (max: 8.16°C /n1n:-5.34'C) Humidity (30. 681) ;NSP (22.61n/a) 









2 ud Temp (rax:2.61'C/zin:1.31'C) ; Humidity (22.333) :WSE (5. 94m/a) 

3 2012-01- Temp (max:9.91°C /m1n:0.46 C ) : Humt di cy (48.833) :MSP (25.36m/2) 

4 012-01-04 Temp (max:5.38 'C /nin:-12.58'C ) : Hunidivy (1.518) :zWSP (23.35m/2) 

5 2012-01-05 Temp (max: 6.04°C /zin:-S. 1 'C) :Hunidity(0.268) :WSP(6.31m/5) 

é 2012-01-06 Temp (max:5.43'C /rin:-11.78'C) 7Humidity (21.67%) 7WSP(S.43m/s) 

7 2012-01-07 Tenp (max: 6.69°C /n1n:-8.01'C ) ;Humidi ty (5.291) :WSP (20. 96m/a) 

5 2012-01-08 Temp (max:0.50°C /r1n:-15.03'C) ;Humidity (23.70%) ;NSP (14. 72m/ a) 

3 2012-01-09 Temp (max: 9.70°C /min:-7.18) sHumidity (15.92%) :WSP (5.38m/2) 
10 2012-01-10 Tenp(rax:5.57'C /nin:-9.93'C) Humidity (2.79%) : WSP (16. 2680/23) 
131 4012-01-11 Temp (max: 9.36 /nin:3.53'C ) z bmnidity(34.374) :zWSP (3. 82m3) 
12 2012-01-12 Temp (max: 3.37 'C /nin:-1.78'C) zHumidity(6.023) :zWSP (5.13m/3) 
15 2012-01-13 Tenp(max:1.75'C /min:-11.53'C) ;Humidity (37.55%) ;WS2(25.21m/s) 
24 2012-01-14 Temp (max:7.69°C ‘min: 7.00); Humidity (20.47%) ;WSE(12.64m/a) 
15 2012-01-15 Temp (max: 6.63C /11n:5.02'C ) : Humtd1rcy (26.381) ;WSP(L2.25m/a) 
16 2012-01-16 Temp (pax: 9.61°C /min:-0.02) sHumidity (23.33%) ;WSP(25.42m/a) 
17 2012-01-17 Temp (max: 3. 71 'C /nin:-3.21'C) zitumidity (26.938) :WSP (5.13m/2) 

2012-01-18 Tezp (ax:1.39'C /nin:-7.80'C) Humidity (30.368) :WSP (5.650/3) 

19 2012-01-19 Temp (max:0.02'C /nin:-6.33'C ) ;Humidity (18.13%) WSP (B .08m/2) 
20 2012-01-20 Terp (max:0.20'C /nin:-14.12'C) i Humidity (23.21%) ;WSP(7.97m/4) 
21 2012-01-21 Temp (max:5.15'C /nin:-4.90'C) Humidity (6.36%) :NSE (0. 71n/2) 
22 2012-01-22 Temp (max: 3.75°C /min:-9.42°C) ;Humidity (4.59%) :WSP(13.41n/3) 
23 2012-01-23 Temp (max: 4.22 /11n:0.22'C ) : Humidity (0.46%) :zWSE (6. 92m/2) 
24 2012-01-24 Temp (rax: 8.12'C /rin:-1.21'C) zHumidity (31.744) :WSP (3. 30m3) 
25 2012-01-25 Temp (max:4.87'C /nin:0.43'C ) z Hunidity(10.5245) :WSP (10.54n/3) 
26 2012-01-2€ Tezp(zax:1.38'C /nin:-2.07'C ) ;Humidity (9.50%) ;WSP (24.14n/2) 
27 2012-01-21 Tenp(max:1.88'C/min:-7.62'C) ;Humidity(10.84t) ;WSP (26.08n/2) 
28 2012-01-28 Temp (max:8.76°C /m1n:-7.88'C) zHumidiry(26.411);WSP(14.66m/2) 
za 2012-01-29 Temp (max:4.04°C /n1n:-10.69'C) ;Humidity (45.40%) *NSP(9.16n/3) 
30 2012-01-30 Temp (rax:0.55'C /nin:-3.11'C) sHumidity (45.10%) :zWSP(18.43n/2) 
31 2012-01-31 Texp (max:3.39'C /rin:-9.91' C) :Hunidity(32.568) :WSP (23.11m/3) 
32 2012-02-01 Temp (zax:8.77'C /nin:3.84'C ) ; Humidity (14.79%) :WSP (2. 26m/s) 
33 2012-02-02 Temp (max:1.08'C /nin:-16.77'C) ;Humidity (28.30%) ;WSP (30. 05m/ s) 

4 2012-02-03 Terp (ma1:7.11'C /min: 6.92) Humidity (3.56%) ;WSE(8.21m/a) 

35 2012-02-04 Tenp(màax:13.61'C /min:6.83'C) ; Humidity (16.11%) ;WSP (20.90n/2) 
36 2012-02-05 Temp (max: 2.94°C /min:<1.01C) sHumidity (44.94%) :WSP(L6.18m/a) 
37 4012-02-06 Temp (max:0.19'C /rin:-12.85'C) : Bumidity(33.31&8) :WSP(7.45m/3) 
33 2012-02-07 Tezp (max:11.34'C /min:-4.41'C) :Humidity (11.16%) zWSP (17. 98m/ 5) 
19 2012-02-08 Temp (max:5.30'C /nin:5.53'C ) Humidity (27.20%) HSE (18.02m/2) 
40 2012-02-09 Tenp (2a1:7.99'C /nin:-1.48'C) Humidity (46. 901) ; WSE (28. 65m/4) 
i1 2012-02-10 Temp (max:0.01'C /n1n:-9.44'C) ;Humidity (7.512) ;WSP (10.98m/2) 
42 2012-02-11 Temp (max: 6.91°C /min:3.65) pHumidity (52.242) :WSE(12.83n/3) 
43 2012-02-12 Temp (max: 3.97°C /nin:-4.62'C) sHumidity (4.92%) ;WSP(Z0.14m/a) 
i4 2012-02-13 Temp (max: 2.93°C /min:-14.94) :Humidity (22.62%) :WSP(17.28m/3) 
45 2012-02-14 Tenp(max:5.17'C/nin:-4.59'C) :fhunidity(51.698) :WSP(26.d0m/3s) 
46 2012-02-15 Temp (max:9.18'C /nin:-3. 68 C) zHunidi ty (41. 548) zWSP (6.3 7m/s) 
i7 2012-02-16 Temp (max:12.77°C /min:-3.64'C ) ;Humidity (43.96%) ;WSP (30. 72n/ 2) 
48 2012-02-17 Tenp(max:1.19'C /nin:-15.30'C ) ; Humi diry (14.381) ;NSP (9.92n/a) 
49 2012-02-18 Tenpimax:83.94'C /rin:-0.52'C) Humidity (9.76%) ;WSP(Z1.56m/a) 
50 2012-02-19 Termp(max:5.95'C /nin:-3.83'C) sHumidity (38.92%) :-WNSP(12.51m/z) - 
3 md t 


fzi pi 3&6 3a Pe UTF-B 


图 10-3 ”查看 实例 文件 内 容 
4) 这 个 文件 里 模拟 了 一 年 的 天 气 数据 ， 这 里 面包 括 了 四 个 参数 ， 当 天 的 最 高 、 最 低 气 
温 、 湿 度 和 风速 ， 这 个 实例 是 提供 给 学 生来 修改 的 ,修改 文 件 之 后 可 以 上 传 到 云 上 ， 如 图 
10-4 所 示 。 





国 oig pi 





数据 文件 名 : | C:\Users\hadoop\Desktop\beij| 浏 鉴 | 





e SEES 
气象 数据 查看 
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K| 10-4 上 传 气 象 数 据 文件 
5) 测试 时 最 好 一 个 学 生 代表 一 个 地 区 ， 如 图 10-5 所 示 。 
6) 上 传 成 功 后 ， 到 气象 数据 云 计算 中 看 到 上 传 的 地 区 数据 ， 多 个 学 生 可 以 通过 目 己 的 账 
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示例 文件 下 载 


E 

eh 。 LAL 
i “REELI 数据 文件 个 数 : 14 
iu 


Pa Mame frypdsize  feplicaniorBiock SizdModification Time)PermissionjOwner [Group | 


c SZARA 
气象 数据 查看 
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图 10-5 气象 数据 云 计算 
户 上 传 文件 ， 然 后 点 击 开 始 云 计算 ， 这 个 界面 具有 admin 用 户 有 权限 看 到 ， 如 图 10-6 所 示 ，。 


作业 任 处 已 成 功 提交 


Bch rm MapReduce {Tike 


nitp.i master sgag 
返回 上 一 层 页 面 
Te E 


K| 10-6 任务 提交 成 功 
7) 然后 可 以 到 后 台 查 看 任务 ， 如 图 10-7 所 示 。 


D master:50030)/j 


YUL LIMES 


master Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Fri Nar 29 18:22:20 CST 2013 

Version: 1.0.1, r1243TE85 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Identifier: 201303231822 


ara Eds Ava.  |Blacklinted|Craylisted| Excluded 
Slots Hap Slots Capacity ATS Tasks/Node Nodes Nodes Nodes 





Scheduling Information 


Eee | 


Filter (Jobid, Priority, User, Name) | 
Huample: 'user:smith 3200" will filter by 'smith' only in the user field and "3200" in all fields 











ap % Tap Taps Reduce 4 Reduce Job 
seta Priority [uor [rome [tee [Tota ee | [rove E 





Parsing 
job 201203231822 0001 | NORMAL | hadoop | Netcorological OL o8 0. COR | 

Data 
Te 


Retired Jobs 


图 10-7 页 面 浏 览 任务 
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8) 可 以 看 到 有 一 个 任务 在 运行 ， 可 以 看 到 任务 的 进度 ， 如 图 10-8 所 示 。 


Hadoop job 201303291822 0001 on master 





Submit Host: under 

Submit Host Address: 192.168. 0.101 
Job-ACLs: All users are allowed 

Job Setup: 

Status: Running 

Started at: Fri Tar 29 19:01:57 CST 2013 
Running for: 17sec 

Job Cleanup: Pending 





— 
radue | ues = oc 


Hap 
SLL ws [— | J n 
. FUIT ee 4 
Job Counters 
EET EE ED 


Detecloal mp tant Slat 
ROWS 730 ü T30 


图 10-8 页 面 浏 览 任 务 进 度 
9) 计算 完毕 后 ， 可 以 通过 气象 结果 查看 ， 看 到 全 国 的 平均 数据 ， 还 有 每 个 月 的 平均 数 
据 ， 如 图 10-9 所 示 。 



















com. education. mapreduce, PeatherParsingScerrlet$Metceorologicallapper Counters 





E. onini 



































pale 全 年 气象 数据 均值: deri: zn 
E AERE: 4.883554C 
gos —- come 
[] 气象 数据 删除 Pi — E: 4.883554m/s 
Eon 气象 数据 统计 
气象 数据 查看 2012-2013 年 
E x 60 
È 40 
- 
由 20 
E 
Ed 
F o 





"ibi 2 年 2 月 2012 年 3 月 2012 年 4 月 2012 年 5 月 2012 年 6 月 2012 年 7 月 2012 年 3 月 2012 年 9 月 2012:E10H 2012:E11H 20123E12H 2013 年 1. 


[+ Meteorological: MinTemp(C) -- Meteorological:MaxTemp(C) Æ- Meteorological: Humidity(%) =æ Meteorological: WSP(m/'s) 





北京 斑 步 至 伟 科技 必 司 





图 10-9 气象 数据 查看 
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11.1 实验 目的 


1) 了 解 人 物 关 系 分 析 的 实现 原理 。 
2) 能 够 掌握 人 物 关系 分 析 的 技术 。 


11.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
11.3 ”实验 内 容 


1) 操作 微 信 人 物 关 系 项 目 。 
2) 通过 源码 更 改 分 析 信 息 。 


11.4 实验 原理 


publie class WeixinParsingServlet extends HttpServlet | 


y ec 

x 

Ey 

private static final longserialVersionUID = 1L; 

private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public WeixinParsingServlet( ) | 
super( ) ; 


| 


jf 3k 
x Map 任务 ,主要 执行 的 操作 是 从 数据 库 中 该 取 微 信任 务 信息 ,然后 从 分 析 条 件 文件 
里 谈 取 信息 ,把 这 些 分 析 数 据 准 备 信息 先 读 取 到 内 存 当 中 
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* 然后 开始 逐 行 读 取 数据 文件 信息 ,并 开始 分 析 
er 
public static classWeixinMapper extends 
Mapper < LongWritable , Text , Text, Text > | 
private static final SimpleDateFormat sdf = new SimpleDateFormat( 
" yyyy-MM-dd HH : mm:ss ") ; 
private static final byte| | lock = new byte| 0] ; 
private static Map < String, WeixinParsingBean > parsingMap = null; 


private static Map < String, WeixinUserBean > weixinuserMap = null; 


public static enum Counters | 


ROWS 





// 每 个 数据 块 开始 执 行 之 前 进行 的 设置 信息 ,这 里 主要 是 从 数据 库 中 和 分 析 条 
件 文件 中 读 取 预 处 理 的 信息 ,为 数据 文件 的 分 析 做 准备 
publie void setup( Context context) | 
synchronized( lock ) | 
if( parsingMap = - null || weixinuserMap = = null) | 

parsingMap = new HashMap < String , WeixinParsingBean > ( ) ; 
weixinuserMap = new HashMap < String , WeixinUserBean > ( ) ; 
FileSystem fs; 


iry | 
/开始 谈 取 分 析 数 据 文 件 
fs = FileSystem. get( context. getConfiguration( ) ) ; 
FileStatus| | uploadparsing = fs 
. listStatus( new Path( 


"/tomcat/ experiment/ weixincloud/uploadparsing ") ) ; 
for( FileStatus ele : uploadparsing ) | 
FSDatalnputStream fsdis = fs. open( ele. getPath( ) ) ; 
String fileName - ele. getPath( ). getName( ) 
. split( "A V. [0]; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
//timePoint -2013-03-05 13.57.40 durationTime :56 
// gender ; 9 9j 
//isFriend: f? ageSpan:22 42 22vocation ; null 
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words :我 爱 你 
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// communicationPlace : JL 5 rfi YEYE X. ,北京 市 朝阳 区 key- 


try | 
while( (line = br. readLine( ))! = null) | 
WeixinParsingBean wpb = new WeixinParsingBean( ) ; 
String| | original = line. split("\t") ; 
if( original. length = 28) | 
if( | original| 0 ]. contains(" null ") ) | 
wpb. setTimePoint ( sdf 
. parse ( original | 0 | 
. substring ( original] O | 
. indexOf(":") +1) ) 
. getTime( ) ) ; 


if( | original[ 1 |. split(":") [ 1 | 
. equals(" null ") ) | 
wpb. setDurationTime( Integer 
. parselnt( original[ 1 | 


. split(":") [1])); 


String gender = original| 2 |. split(":") [1]; 
if( ! gender. equals(" null ") ) | 
if( gender! - null) | 
if( gender. equals ("E 35") ) | 
wpb. setGender(" 11 ") ; 
| else if ( gender. equals ("ir") ) | 
wpb. setGender(" 00 ") ; 
| else if( gender. equals ("FTE") ) | 
wpb. setGender("01 ") ; 
| else | 


wpb. setGender(" ALL") ; 


if( | original[ 3 |. split(":") [ 1 | 
. equals ( " null ") ) | 


A #11 2% 微 信 人 物 关系 云 综 合 实 训 A 


if( original| 3 |. split(".")| 1 | 
. equals ( 4") ) | 
wpb. setFriend(" true ") ; 
| else if( original[ 3 |. split(":") [ 1 ] 
. equals ("6") ) | 
wpb. setFriend(" false ") ; 


| else | 


wpb. setFriend(" ALL ") ; 


String ageSpan = original| 4 |. split(";")| 1] ; 
if( ! ageSpan. equals(" null ") ) | 
wpb. setMinAge( Integer 
. parseInt ( ageSpan 
. split(*58) [0])) ; 
wpb. setMaxAge( Integer 
. parseInt ( ageSpan 


. split( "全 ") [1])) ; 


if( ! "null". equals( original[ 5 | 
. split(*;) [1])) | 
wpb. setVocations( original[ 5 | 
. split(":") [1]) ; 


if( ! "null". equals( original[ 6 | 
. split(*:) [1])) | 
wpb. setCommunicationPlace ( original| 6 | 


. split(":") [ 1]. split(",") ) ; 


if( ! "null". equals( original 7 | 
. split(":")[1])) | 
wpb. setKeywords( original | 7 | 
. split(":") [1]. split(",") ) ; 


| 


parsingMap. put( fileName ,wpb ; 
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| catch ( Exception e) | 
e. printStackTrace( ) ; 
| 
fsdis. close( ) ; 
| 
// 读 取 数 据 库 的 微 信 任务 信息 
Path path = new Path( 

"/tomcat/ experiment/ weixincloud/tmp/ DERBY. db ") ; 
FSDatalnputStream fsdis = fs. open( path ) ; 
BufferedReader br = new BufferedReader( 

new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
while( ( line = br. readLine( ))! - null) | 
String| | array = line. split("\t") ; 





try | 
if( array. length = 26) | 

WeixinUserBean wub = new WeixinUserBean( ) ; 
wub. setId( Integer. valueOf( array | 0 | ) ) ; 
wub. setName( array| 1 | ) ; 
wub. setAge( Integer. valueOf( array| 2 | ) ) ; 
wub. setSex( array| 3 | ) ; 
wub. setVocation( array| 4 | ) ; 
wub. setFriends( array| 5 | ) ; 
weixinuserMap. put( array| 0 | ,wub ; 

| 

| catch( Exception e) | 
e. printStackTrace( ) ; 


| 


| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 数 据 文件 里 的 每 一 个 行 数据 都 会 经 过 该 方法 的 处 理 , 这 里 主要 分 析 了 每 条 数据 是 
不 是 符合 用 户 定义 的 分 析 条 件 , 如 果 符 合 则 把 该 数据 发 给 reduce 任务 
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public void map( LongWritable key ,Text value , Context context ) 
throws IOException , InterruptedException | 
// 110001,10084 | \t 2013-02-16 19:22:46 \t 2013-02-16 21:32:45 \t 
// UC rH AN PZ 
// WIET? 
String| | array = value. toString( ). split("\t") ; 
if( array. length = =5) | 
try | 
// 开 始 对 每 行 数据 进行 逐条 分 析 , 看 是 不 是 满足 用 户 定义 的 条 件 信息 
long beginTime = sdf. parse( array| 1 | ). getTime( ) ; 
long endTime = sdf. parse( array| 2 | ). getTime( ) ; 
String| | ids = array | 0 |. substring ( 
array | 0 |. indexOf("|") +1, array| 0 |. indexOf("}") ) 
. split(",") ; 
if( ids. length = 22) | 
for( Map. Entry < String , WeixinParsingBean > me: parsingMap 
. entrySet( ) ) | 
if( me. getValue( ). getTimePoint( )! =OL) | 
if( beginTime < me. getValue( ). getTimePoint( ) ) | 


continue ; 


| 
if( me. getValue( ). getDurationTime( )! 20) | 
if( endTime-beginTime « 1000L * me. getValue( ) 
. getDurationTime( ) * 60) | 


continue ; 


| 
if( me. getValue( ). getCommunicationPlace( ) ! = null) | 
boolean pass - false ; 
for( String ele:me. getValue( ) 
. getCommunicationPlace( ) ) | 
if( ele. trim( ). equals( array | 3 ]. trim( ) ) ) | 
pass = true; 


break ; 


| 
if(! pass) | 


continue ; 


综合 实 训 A 
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| 
if( me. getValue( ). getKeywords( ) ! = null) | 
boolean nopass - false ; 
for( String ele:me. getValue( ). getKeywords( ) ) | 
if( | array| 4 |. contains( ele) ) | 
nopass = true; 


break ; 


if( nopass ) | 


continue ; 


| 
if( ! (me. getValue( ). getGender( ). equals(" ALL") ) ) | 


if( me. getValue( ). getGender( ). equals(" 00 ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ). getSex( ) 
. equals ( c") ) ) | 
continue ; 
] 
if( | ( weixinuserMap. get( ids| 1 | ). getSex( ) 
. equals ( "Z") ) ) | 
continue ; 
] 
| else if( me. getValue( ). getGender( ) 
. equals(" 11 ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ). getSex( ) 
. equals(" 33") ) ) | 
continue ; 
| 
if( | ( weixinuserMap. get( ids| 1 | ). getSex( ) 
. equals ("F") ) ) | 
continue ; 
| 
| else if( me. getValue( ). getGender( ) 
. equals("01 ") ) | 
if( weixinuserMap 
. get(ids| 0 | ) 
. getSex( ) 
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. equals( weixinuserMap. get(ids[ 1 | ) 
. getSex( ) ) ) | 


continue ; 


| 
if( ! (me. getValue( ). getFriend( ). equals(" ALL") ) ) | 


if( me. getValue( ). getFriend( ). equals(" true ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ) 
. getFriends( ). contains( ids| 1 | ) ) ) | 
continue ; 
] 
if( | ( weixinuserMap. get( ids| 1 | ) 
. getFriends( ). contains( ids| 0 ] ) ) ) | 
continue ; 
] 
| else if( me. getValue( ). getFriend( ) 
. equals(" false") ) | 
if( weixinuserMap. get( ids| 0 | ). getFriends( ) 
. contains( ids| 1 | ) 
&&weixinuserMap. get( ids[ 1 | ) 
. getFriends( ) 
. contains( ids[ 0 ] ) ) | 


continue ; 


| 
if( me. getValue( ). getMinAge( ) >0 
&&me. getValue( ). getMaxAge( ) >0) | 
if( weixinuserMap. get( ids| 0 | ). getAge( ) < me 
. getValue( ). getMinAge( ) 
| | weixinuserMap. get( ids| 0 |). getAge( ) > me 
. getValue( ). getMaxAge( ) ) | 
continue ; 
] 
if( weixinuserMap. get( ids| 1 | ). getAge( ) < me 
. getValue( ). getMinAge( ) 
| | weixinuserMap. get ( ids| 1 |). getAge( ) » me 
. getValue( ). getMaxAge( ) ) | 
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continue ; 


| 


if( me. getValue( ). getVocations( ) ! = null) | 
if( ! ( me. getValue( ). getVocations( ) 
. contains ( weixinuserMap. get( ids| 0 | ) 
. getVocation( ) ) ) ) | 
continue ; 
| 
if( 1 (me. getValue( ). getVocations( ) 
. contains ( weixinuserMap. get( ids| 1 | ) 
. getVocation( ) ) ) ) | 


continue ; 


| 


context. write( new Text( me. getKey( ) ) , value) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 


| 


context. getCounter( Counters. ROWS). increment( 1 ) ; 


publie void cleanup( Context context) | 


| 


PE. 

x reduce 任务 ,主要 用 来 收集 map 任务 过 程 中 产生 的 符合 条 件 的 结果 信息 ,然后 

对 这 些 结 采 进行 用 户 归 并 ,并 把 这 些 绪 朱 信息 写 和 人 到 

* hadoop 的 HDFS 文件 系统 当中 

ya 

public static classWeixinReducer extends Reducer < Text, Text , Text , Text > | 

public void reduce( Text key, Iterable < Text > values , Context context) 
throws IOException , InterruptedException | 


String content ="; 


/ / hà DI XS] 28 AR FV IF 
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for( Text value : values ) | 
content + = value. toString( ) +"\n"; 
| 
//context. write( new Text( title) , new Text( content) ) ; 
// 把 结果 写 入 到 HDFS 中 
FileSystem hdfs = FileSystem. get( context. getConfiguration( ) ) ; 
Path path = new Path ("tomcat/experiment/weixincloud/ results/" 
+ key. toString( ) +". result") ; 
if( hdfs. exists( path ) ) | 
hdfs. delete( path, true) ; 
] 
FSDataOutputStream hdfsOut = hdfs. create( path ) ; 
hdfsOut. write( content. getBytes( ) ) ; 
hdfsOut. close( ) ; 
// 写 人 完成 ,并 关闭 相关 的 人质 源 


/ * 

* 处理 用 户 提 有 交 的 分 析 微 信和 数据 的 云 计 算 请 求 ,客户 并 提交 任务 后 ,服务 端 负 贡生 
成 job 信息 ,然后 把 这 个 job 信息 传递 给 Hadoop 集群 

* 让 Hadoop 集群 开始 执行 分 析 任务 

*/ 
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第 五 个 实验 项 目 : MARRI. 
1) 进入 之 后 是 操作 界面 ， 如 图 11-1 所 示 。 
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图 11-1 实例 文件 下 载 


LI 


2) 这 里 还 是 提供 了 


© 添加 新 下 载 


一 个 实例 下 载 ， 如 图 11-2 所 示 。 
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http://master:8080/education/downloadweixin?=%E4%B8%8B%E 


BUB 
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4) 这 个 是 
图 11-4 所 示 。 
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图 11-3 实例 文件 内 容 
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可 以 随便 更 改 ， 不 过 任务 信息 是 固定 的 ， 可 以 查看 一 下 ， 如 


5) 这 里 模拟 了 100 FAW, WA 11-5 所 示 。 


6) 人 物 微 信 ID 号 为 10001 ~ 10100 ， 这 个 是 模拟 出 来 的 ， 所 以 不 可 以 修改 。 
实例 可 以 随便 添加 内 容 ， 不 过 一 定 要 按照 格式 来 。 
含有 《钢铁 侠 3》 的 信息 然后 上 传 ， 如 图 11-6 所 示 。 
9) 上 传 之 后 可 以 在 页 面 上 看 到 是 否 上 传 成 功 ， 如 图 11-7 所 示 。 


7) 之 后 这 个 人 
8) 现在 记 住 一 条 


A 第 11 章 微 信人 物 关系 云 综合 实 训 A 


本 向 信 关 系 分 析 系 统 
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Contents of directory /tomcat/experiment/weixincloud/uploaddata 








Goto : /tarncat/experiment/weixir 








Replicatibn Block Size Modification Time Permission Owner Group 
weixindata.txt file 162.63 KB 2 64MB — 2013-052412:17. rwcr-r- — hadoop supergroup 
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图 11-7 页 面 浏 览 上 传 文件 
10) 现在 数据 传输 上 去 了 ， 可 以 开始 分 析 了 ， 现 在 编辑 一 下 查找 的 特征 ， 如 图 11-8 所 示 。 
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图 11-8 分 析 条 件 上 传 
11) 上 传 之 后 到 分 析 数 据 云 计算 中 进行 计算 ， 如 图 11-9 所 示 。 
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12) 任务 提交 后 ， 可 以 在 后 台 看 到 任务 ， 如 图 11-10 Brzn 
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State: RUNNING 

Started: Fri War 23 18:22:20 CST 2015 

Version: 1.0.1, r1243T85 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hartonfo 
Identifier: 201303231822 
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图 11-0 浏览 执行 任务 
13) 运算 完毕 后 ， 查 看 分 析 结 果 ， 如 图 11-11 所 示 。 
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系统 为 您 分 析出 3 条 结果 : 





+t, Ruel 通信 人 :| {10003,10070+ 
模拟 数据 上 传 开始 时 间 :| 2013-03-01 23:33:08 
分 析 条 人 忻 上 传 结束 时 间 :| 2013-03-02 02:31:10 
通信 地 点 北京 市 虎 坊 烽 西 站 
m suas EAS — €HNKEGOESHEZNDIOEES, Hi Google 元 素 更 是 发 挥 得 恰到好处 ， 同 时 也 见识 到 了 甲骨 文 
模拟 数据 删除 的 去 计算。 云 计算 将 不 仅 能 够 各 助 企业 沽 经 运营 成 本 ， 而 且 还 可 能 妹 雪 地 球 。ps: 云 计算 可 能 会 币 底 改变 人 类 的 生活 方式 。 
SURO a 


eens 通信 人 :| {10003,10070} 
开始 时 间 :| 2013-03-01 23:33:08 
分 析 结 果 查 看 些 束 时 间 : 2013-03-02 02:31:10 
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通信 人 :| {10003,10070} 
咱 拓 时 间 : 2013-03-01 23:33:08 Wm Beso 2013 LARRE REHAT 


Di SS 


图 11-11 查看 分 析 结 
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12.1 实验 目的 


1) 了 解 云 计算 查找 的 原理 。 
2) Sq S | Ae IER | ARBER, 


12.2 ”实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
12.3 ”实验 内 容 


1) 操作 云图 书馆 项 目 。 
2) 通过 索引 的 方式 查找 更 多 的 图 书 。 


12.4 实验 原理 


实验 主要 源码 : 
1. 上 传 和 索引 
public class BooksIndexMRThread extends Thread | 


/ x * 
* 该 类 为 一 个 线程 类 ,每 一 个 用 户 提交 一 个 课本 文件 后 ,系统 会 为 其 分 
该 线程 执行 的 主要 任务 是 向 Hadoop 集群 提交 一 个 建立 索引 文件 的 任务 

















* Hadoop 接受 到 该 任务 时 会 开始 对 文件 进行 分 词 ,并 把 分 词 结 采 写 和 人 到 索引 文件 里 


* / 

private static final byte| |lock = new bytel 0 | ; 

private static final Configuration conf = HadoopConfiguration 
. getConfiguration ( ) ; 

private Book book = null ; 


public BooksIndexMRThread ( Book book ) | 
this. book = book ; 
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// EUR DIVE , 当 线 程 开 始 执行 时 ,首先 局 动 该 方法 
public void run( ) | 
try | 
index ( book ) ; 
| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch ( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch ( ClassNotFoundException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


public static class BooksMapper extends 
Mapper < LongWritable , Text , Null Writable , NulIWritable > | 
private static final Analyzer analyzer = new MaxWordAnalyzer( ) ; 
private IndexWriterConfig 1wc = null ; 
private RAMDirectory ramDir = null ; 
private IndexWriter writer = null ; 


private StringBuffer sb = null ; 


publie static enum Counters | 


ROWS 


// 每 一 个 map 任务 执行 开始 前 的 准备 工作 ,这 里 主要 是 生成 了 建立 索引 的 对 
Be, ,并 对 其 进行 初始 化 配置 
protected void setup( Context context ) | 
sb = new StringBuffer( ) ; 
iwc = new IndexWriterConfig( Version. LUCENE. 36 , analyzer ) ; 
iwc. setOpenMode ( OpenMode. CREATE) ; 
iwc. setRAMBufferSizeMB( 128. 0) ; 
iwc. setMaxBufferedDoes ( 1000) ; 
ramDir = new RAMDirectory( ) ; 


try | 
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writer = new IndexWriter( ramDir,iwc ) ; 
| catch ( IOException e) | 

//TODO Auto-generated catch block 

e. printStackTrace( ) ; 


// X] map 分 配 到 的 任务 文件 进行 谈 取 操作 ,每 谈 取 一 个 都 要 进行 分 词 , 然 后 把 
分 词 结 采 写 和 人 到 内 存 中 , 当 内 存 存 储 到 一 定 程度 ,刷新 到 磁盘 上 
public void map( LongWritable key , Text value , Context context) 
throws IOException , InterruptedException | 
sb. append( value. toString( ) ) ; 
context. getCounter( Counters. ROWS). increment( 1 ) ; 
if( context. getCounter( Counters. ROWS). getValue( ) 96100 220) | 
if( sb. toString( )! = null&&! ". equals( sb. toString( ) ) ) | 
Document doc = new Document( ) ; 
doc. add( new Field (" name ", context. getConfiguration( ). get( 
" bookname ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" author ", context. getConfiguration( ). get( 
" bookauthor ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field (" publishdate ", context. getConfiguration( ) 
. get(" publishdate ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" sections ", sb. toString( ) , Store. YES, 
Index. ANALYZED) ) ; 
writer. addDocument( doc) ; 


sb = new StringBuffer( ) ; 


// 每 一 个 任务 执行 完成 后 的 清理 工作 map 任务 完成 的 索引 数据 块 会 以 文件 来 
的 目录 存在 于 本 地 磁盘 上 ,在 map 任务 结束 时 会 把 这 些 索 引 数 据 块 写 回 到 HDFS 上 ,最 后 让 
master 来 进行 最 后 的 合并 工作 








protected void cleanup( Context context ) | 


try | 
if( sb. toString( ) ! = null) | 


Document doc = new Document( ) ; 


doc. add( new Field (" name ", context. getConfiguration( ). get( 
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" bookname ") , Store. YES, Index. ANALYZED) ) ; 
doc. add ( new Field(" author ", context. getConfiguration( ). get( 
" bookauthor ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field (" publishdate ", context. getConfiguration( ) 
. get(" publishdate ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" sections ", sb. toString( ) , Store. YES, 
Index. ANALYZED) ) ; 
writer. addDocument( doc ) ; 
| 
writer. close( ) ; 
| catch ( CorruptIndexException el ) | 
//TODO Auto-generated catch block 
el. printStackTrace( ) ; 
| catch ( IOException el ) | 
//TODO Auto-generated catch block 
el. printStackTrace( ) ; 


long timeMillis = System. currentTimeMillis( ) ; 
/7 开始 谈 取 本 地 的 磁盘 索引 文件 目录 ,然后 通过 文件 流 的 方式 把 这 些 文 件 








String outStr = "/hadoop/booksindex/" + timeMillis ; 
File indexDir = new File( outStr) ; 
IndexWriterConfig fsIndexWriterConfig 2 new IndexWriterConfig( 
Version. LUCENE 36 analyzer) ; 
fsIndexWriterConfig. setOpenMode ( OpenMode. CREATE OR, APPEND) ; 
fsIndexWriterConfig. setRAMBufferSizeMB ( 128. 0) ; 
fsIndexWriterConfig. setMaxBufferedDocs ( 1000 ) ; 
Directory directory ; 
try | 
directory = FSDirectory. open( indexDir) ; 
IndexWriter fsIndexWriter = new IndexWriter( directory , 
fsIndexWriterConfig ) ; 
// 把 内 存 中 的 索引 库 写 到 文件 系统 中 
fsIndexWriter. addIndexes ( ramDir ; 
fsIndexWriter. close( ) ; 








FileSystem hdfs = FileSystem. get( context. getConfiguration( ) ) ; 
FileSystem local = FileSystem. getLocal ( context 
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. getConfiguration( ) ) ; 
Path inPath = new Path( outStr ) ; 
String hdfsPath ="/tomcat/experiment/librarycloud/indexes/" 
t timeMillis + "-lock "+'/"; 
FileStatus| | inputFiles = local. listStatus( inPath ) ; 
for( FileStatus ele: inputFiles) | 
FSDataOutputStream fsdos = hdfs. create( new Path ( hdfsPath 
+ ele. getPath( ). getName( ) ) ) ; 
FSDatalnputStream fsdis = local. open( ele. getPath( ) ) ; 
byte| |buffer 2 new byte| 256 | ; 
int readByte =0; 
while( ( readByte = fsdis. read( buffer) ) >0) | 
fsdos. write ( buffer ,0 , readByte ) ; 
| 
fsdis. close( ) ; 
fsdos. close( ) ; 
| 
local. delete ( inPath , true) ; 
hdfs. rename( new Path( hdfsPath ) , new Path( 
"/tomcat/ experiment/ librarycloud/indexes/" + timeMillis +"/") ) ; 
| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 配 置 job 相关 信息 ,然后 提交 给 Hadoop 集群 ,让 其 开始 执行 该 job 
private void index( Book book) throwsIOException , InterruptedException , 
ClassNotFoundException | 

conf. set(" bookname ", book. getName( ) ) ; 

conf. set(" bookauthor ", book. getAuthor( ) ) ; 

conf. set(" publishdate ", book. getPublishDate( ) ) ; 

// 开 始 配置 job 信息 

Job job = new Job( conf," Indexing Book Data") ; 

job. setJarByClass ( BooksIndexMR Thread. class) ; 

String perfix ="/tomcat/experiment/librarycloud/books/" 

+ book. getAuthor( ) +"/" + book. getName( ) ; 
Path in = new Path( perfix +". book") ; 
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Path out = new Path( perfix +"-result ") ; 
FileInputFormat. setInputPaths( job ,in ; 
FileOutputFormat. setOutputPath ( job, out ) ; 


job. setMapperClass ( BooksMapper. class) ; 
// job. setReducerClass( null) ; 


job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( NullOutputFormat. class) ; 
job. setOutputKeyClass ( NullWritable. class ) ; 

job. setOutputValueClass ( NullWritable. class) ; 


job. setNumReduceTasks (0) ;// 1X reduce 任务 

// 配 置 job 信息 完成 

// 提 交 job 到 Hadoop 集群 

job. waitForCompletion( true ) ; 

// master HRA vin JT uj A. HDFS 该 取 每 一 个 map 任务 产生 的 数据 块 , 人 然后 
往 本 地 的 索引 目录 下 合并 

// 由 于 是 多 线程 的 操作 ,在 合并 的 同时 可 能 会 是 多 个 线程 对 本 地 目录 进 
行 操作 ,以 免 文 件 产生 错误 

// 对 本 地 的 文件 目录 加 锁 ,在 每 一 个 时 刻 只 允许 一 个 线程 对 其 进行 索引 








ACTES A. 
synchronized( lock ) | 
FileSystem hdfs = FileSystem. get( conf) ; 
FileSystem local = FileSystem. getLocal( conf) ; 
Path indexes = new Path( /tomcat/experiment/librarycloud/indexes ") ; 
FileStatus| | list = hdfs. listStatus( indexes ) ; 
for( FileStatus fs. list) | 
if( fs. isDir( ) &&! fs. getPath( ). getName( ). contains(" lock ") ) | 
FileStatus| | indexList = hdfs. listStatus( fs. getPath( ) ) ; 
for( FileStatus ele : indexList ) | 
FSDatalnputStream fsdis = hdfs. open( ele. getPath( ) ) ; 
FSDataOutputStream fsdos = local. create( new Path( 
"/ hadoop/indexes/tmp/" + fs. getPath( ). getName( ) 
+"/" + ele. getPath( ). getName( ) ) ) ; 
byte| | buffer = new byte| 256 | ; 
int readByte 20; 
while( ( readByte = fsdis. read( buffer) ) >0) | 
fsdos. write( buffer ,0 , readByte ) ; 
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| 
fsdis. close( ) ; 


fsdos. close( ) ; 


|] 
hdfs. delete( fs. getPath( ) ,true) ; 


| 
File indexDir = new File("/hadoop/indexes/tmp ") ; 
Analyzer analyzer = new MaxWordAnalyzer( ) ; 
IndexWriterConfig fsIndexWriterConfig = new IndexWriterConfig( 
Version. LUCENE 36 , analyzer ) ; 
fsIndexWriterConfig. setOpenMode ( OpenMode. CREATE. OR. APPEND) ; 
fsIndexWriterConfig. setRAMBufferSizeMB ( 128. 0) ; 
fsIndexWriterConfig. setMaxBufferedDocs ( 1000) ; 
Directory directory = FSDirectory. open( new File( 
"/ hadoop/indexes/index ") ) ; 
File| JarrayFile = indexDir. listFiles( ) ; 
for( File file ; arrayFile ) | 
if( file. isDirectory ( ) ) | 
IndexWriter fsIndexWriter = new IndexWriter( directory , 
fsIndexWriterConfig ) ; 
// 把 内 存 中 的 索引 库 写 到 文件 系统 中 
Directory tmp = FSDirectory. open( file) ; 





fsIndexWriter. addIndexes( tmp) ; 
fsIndexWriter. close( ) ; 


tmp. close( ) ; 
deleteDir( file) ; 





// 删 除 临 时 的 索引 文件 目录 
private void deleteDir( File dir) | 
if( dir. isDirectory( ) ) | 
File| | children = dir. listFiles( ) ; 
for( File ele: children) | 
deleteDir( ele) ; 
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|] 
dir. delete( ) ; 


| 
2. 检索 文件 
publie class RetrievalBooksServlet extends HttpServlet | 
private static final long serialVersionUID =1L; 
private static final Analyzer analyzer = newMaxWordAnalyzer( ) ; 


private static final File index = new File( /hadoop/indexes/index ") ; 


public RetrievalBooksServlet ( ) | 


| 


J * 
* MD HERE vin EARS AT OS, WS Arim A BTA Ta, BE BUTS LBS RECTE , 0. 
AW EAJRI E] 25 EP Yii 
* / 
public void doGet( HttpServletRequest request , HttpServletResponse response ) 











throws ServletException , IOException | 
// request. setCharacterEncoding ( Charset. defaultCharset( ). toString( ) ) ; 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
int pageNumber = 1 ; 
String pageNumberStr = request. getParameter(" pageNumber ") ; 
if( pageNumberStr! = null&&! pageNumberStr. equals( ") ) | 
pageNumber = Integer. parseInt ( pageNumberStr ) ; 
| 
if(ub = = null) | 
request. getRequestDispatcher( "/login. jsp"). forward ( request, 
response ) ; 
| else | 
if( ! index. exists( ) ) | 
request. setAttribute( " result ", null) ; 
request. getRequestDispatcher( "/error. jsp? result = 索引 文件 不 存在 ! ") 
. forward ( request , response ) ; 
| else | 
// BRIE Pom HY ALTA OT e 
Book book = new Book( ) ; 


book. setName (new String( request. getParameter("name"). getBytes ( 
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" js0-8859-1 ") ,"UTF-8 ") ) ; 
book. setAuthor( new String( request. getParameter(" author ") 
. getBytes(" 1s0-8859-1 ") ," UTF-8 ")) ; 
book. setPublishDate ( new String( request. getParameter( 
" publishdate "). getBytes(" is0-8859-1 ") ,"UTF-8 ')) ; 
book. setSection ( new String( request. getParameter( " section ") 
. getBytes(" 1s0-8859-1 ") ,"UTF-8") ) ; 
request. setAttribute( " book ", book ) ; 
List < Book > list = null ; 


try | 
// 根 据 查 询 对 象 在 索引 文件 里 进行 相关 查询 ,把 结果 封 





疫 到 一 个 list 当中 ,返回 给 客户 并 
list = retrievalBooks( request , book , pageNumber) ; 
request. setAttribute( " entry List ", list) ; 
if( list. size( ) 50) | 
request. setAttribute( " result ",™) ; 
| else | 
request. setAttribute( " result ", null) ; 
| 
request. getRequestDispatcher( "/retrievalbooks. jsp ") 
. forward ( request , response ) ; 
| catch ( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
request. getRequestDispatcher( 


"error. jsp? result = R RRI tH XL e$ fei. ") 





. forward ( request , response ) ; 


| 


| 
//2012-12 


//AVG | Temp ( max; 21.760002°C/min; 13.001612°C ); Humidity 
(51. 9754996 ) ; WSP(21. 388714m/s) | 


| 





// E iy S| CPE TE , MR S CE se index 文件 ,然后 根据 客户 端 提交 的 
条 件 进行 查询 ,把 符合 结果 的 数据 返回 
private List < Book > retrievalBooks( HttpServletRequest request, Book quote, 


int pageNumber ) throws Exception | 
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List < String > list = new ArrayList < String > ( ) ; 

String keywords ="; 

if (quote. getName( ) ! =null&&! ™. equals( quote. getName( ) ) ) | 
list. add(" name ") ; 


keywords + = quote. getName( ) +","; 
| 
if( quote. getAuthor( )! -null&&! ™. equals( quote. getAuthor( ) ) ) | 
list. add (" author ") ; 
keywords + = quote. getAuthor( ) +","; 
j 
if( quote. getPublishDate( )! = null 
&&! ". equals( quote. getPublishDate( ) ) ) | 
list. add (" publishdate ") ; 
keywords + = quote. getPublishDate( ) +","; 
| 
if( quote. getSection( ) ! =null&&! ™. equals( quote. getSection( ) ) ) | 
list. add(" sections ") ; 
keywords + = quote. getSection( ) ; 
| 
String| |fieldArray = (String| | ) list. toArray( new String list. size( ) | ) ; 
String| | keywordArray = keywords. split(",") ; 
BooleanQuery bQuery = new BooleanQuery( ) ;//2H & & i8 
BooleanClause. Occur| |flags = new BooleanClause. Occur| list. size( ) | ; 
for(int index =0; index < flags. length; index + + ) | 
flags| index | = BooleanClause. Occur. MUST; 
| 
Query query = MultiFieldQueryParser. parse( Version. LUCENE_36, 
keywordArray , fieldArray ,flags , analyzer ) ; 
bQuery. add ( query , BooleanClause. Occur. MUST) ; 


// 获 取 访 问 索 引 的 接口 ,进行 搜索 
Directory directory = FSDirectory. open index) ; 
IndexReader indexReader = IndexReader. open( directory ) ; 


IndexSearcher indexSearcher = new IndexSearcher( indexReader) ; 


int pageSize = 10; 
int start = ( pageNumber-1) * pageSize; 
int hm = start + pageSize ; 


request. setAttribute( " pageSize ", pageSize ) ; 
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request. setAttribute(" pageNumber ", pageNumber) ; 


//TopDoes 搜索 返回 的 结 


TopScoreDocCollector res = TopScoreDocCollector. create ( hm ,false ) ; 


indexSearcher. search ( bQuery , res ) ;// Rig [ul pij 100 条 记录 
TopDocs tds = res. topDocs( start , pageSize ) ; 


int totalCount = res. getTotalHits( ) ; 

request. setAttribute( " totalPosts ", totalCount ) ; 

int pages = ( totalCount-1 ) /pageSize +1;// 计 算 总 页 数 
request. setAttribute(" totalPages ", pages ) ; 

System. out. println( "搜索 到 的 结果 总 数量 为 :"+totalCount) ; 
System. out. println ("EA ICN :" + pages) ; 





ScoreDoc| ] scoreDocs = tds. scoreDocs ;// 搜 索 的 结果 列表 
System. out. println( scoreDocs. length) ; 
// AE sten ,使 搜索 的 关键 词 突出 显示 


Formatter formatter = new SimpleHTMLFormatter(" < font color = fed > ", 





"</font >"); 
Scorer fragmentScore = new QueryScorer( bQuery ) ; 


Highlighter highlighter = new Highlighter( formatter , fragmentScore ) ; 


Fragmenter fragmenter = new SimpleFragmenter( 100) ; 


highlighter. setTextFragmenter( fragmenter ) ; 


List < Book > books = new ArrayList < Book > ( ) ; 
// 把 搜索 结果 取出 放 和 人 到 集合 中 ,并 对 关键 词 进行 高 亮 显示 
for( ScoreDoc scoreDoc :scoreDocs ) | 
int docID = scoreDoc. doc;// 当 前 结果 的 文档 编号 
Document document = indexSearcher. doc ( docID) ; 
Book book = new Book( ) ; 


String name = document. get(" name ") ; 











String highlighterName = highlighter. getBestFragment( analyzer , 
" name ", name ) ; 
if( highlighterName = = null) | 
highlighterName = name; 


| 


book. setName( highlighterName ) ; 


String author = document. get(" author") ; 
String highlighterAuthor = highlighter. getBestFragment ( analyzer , 
" author ", author ) ; 
if( highlighterAuthor = = null) | 
highlighterAuthor = author; 


| 
book. setAuthor( highlighterAuthor) ; 


String publishdate = document. get(" publishdate ") ; 
String highlighterPublishdate = highlighter. getBestFragment( 
analyzer ," publishdate ", publishdate ) ; 
if( highlighterPublishdate = = null) | 
highlighterPublishdate 2 publishdate ; 


| 
book. setPublishDate( highlighterPublishdate ) ; 


String section = document. get(" sections ") ; 
String highlighterSections = highlighter. getBestFragment( analyzer , 


" sections ", section ) ; 


if( highlighterSections = = null) | 
if( section. length( ) > 150) | 
highlighterSections = section. substring( 0,150) ; 
| else | 


highlighterSections = section ; 


| 


book. setSection( highlighterSections ) ; 


books. add ( book ) ; 
| 


indexReader. close( ) ; 
indexSearcher. close( ) ; 


return books ; 
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12.5 ER 





第 二 个 实验 项 目 : 图 书馆 图 书 管理 。 
1) 进入 后 是 一 个 操作 界面 ， 如 图 12-1 所 示 。 


B. 书馆 图 书 管理 系统 








DE HERRI 
a, PETË 
PROA use 
作者 : 
出 版 日 期 
书本 文件 : A | 《编码 格式 : UTF-8) 





EX 正本 


Haare © 2013 Iba Saha 


图 12-1 书籍 上 传 
2) 这 个 看 着 很 伺 单 ， 其 实 后 台 比 较 复 淋 ， 因 为 涉及 了 反问 索引 技术 ， 这 个 项 目 可 以 让 
所 有 的 学 生 上 传 书 籍 ， 然 后 服务 各 就 会 帮助 上 传 的 书籍 进行 索引 ， 这 里 先 简 单 上 传 一 个 文本 
文件 ， 如 图 12-2 所 示 。 








toO 上传 和 素 引 
+ PETH 

;o HUBS 
书籍 检索 He: Mths 





作者 : 2S 
出 版 日 期 :，2013-05-20 


书本 文件 : C:\Users\hadoop\Desktop\liz xj v; 《编码 格式 : UTF-8) 


m sz 
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图 12-2 ”编辑 上 传 书籍 信息 
3) 点 击 上 传 文件 ， 如 图 12-3 所 示 。 
4) DA a REA, 如 图 12-4 所 示 。 
5) 上 传 完毕 后 进行 检索 ， 如 图 12-5 所 示 。 





ÉP 计算 安 训 项 上 1 


作业 任务 已 成 功 提交 ! 


索引 作业 已 成 功 提交 ,请 等 待 后 台 操 作 , 精 后 查 词 ! 
点 击 下 面馆 接 浏览 MapReduca 执 行进 度 
http://master:50030 

返回 上 一 层 页 面 


n 





图 12-3 任务 提交 成 功 


Cluster Summary (Heap Size is 54.5 MB/888.94 MB) 





| apo pci uelis m Nap Task EX Avg. — |Blacklisted |Graylisted | Excluded 


Tasks Slots Nap Slots Slots Capacity EET Tasks/Node Nodes Nodes 


Es Ca Ce Co sme rd e hh lm — jo ln hm 


Scheduling Information 





Queue Name | State | Scheduling Information 





ift N/A 


Filter (Jobid, Priority, User, Name) 
Example: 'user:snith 3200 will filter by “anith’ only in the user field and '3200' in all fields 









Running Jobs 


Tap % Map Maps Reduce % Reduce Reduces Job Scheduling 
一 
re le Po eq p o BR 


图 12-4 浏览 运行 任务 






Diagnostic 
Info 
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E. 书馆 图 书 管理 系统 


证， 书籍 上 传 和 索引 


+, PETË 
"SU BÉ: | 
作者 : 
出 版 日 其 
内 容 : REAT 





os = 
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图 12-5 检索 书籍 
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6) 点击“ 查询” 按钮 就 会 找到 有 这 个 词语 的 书籍 和 相关 信息 ， 如 图 12-6 所 示 。 





B... 








f, TE ERES 
So BETS 
PELRA T: 
作者 : 
出 版 日 期 : 
AY: RAPE 
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` 
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图 12-6 查看 检索 
7) 多 试验 几 次 ,这 里 把 一 篇 文章 分 成 很 多 小 的 章 m 行 一 草 ， 所 以 当 检 索 作 者 
时 会 检索 出 很 多 ， 如 图 12-7 所 示 。 











B... 书 管理 系统 


t BEHEA 
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出 版 日 期 : 



































图 12-7 查看 TAA A Fl zh m. = 
8) 这 个 项 目 涉及 的 内 容 很 多 ， 还 有 分 词 索引 怎 么 合并 之 类 的 内 容 ， 大 家 可 以 好 好 分 析 
探讨 一 下 
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13.1 实验 目的 


1) 了 解 物 联网 和 云 计 算 的 融合 技术 。 
2) 实现 用 云 计算 的 技术 提供 更 多 党 甘地 球 的 项 目 。 





13.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
13.3 ”实验 内 容 


1) 操作 快递 云 项 目 。 
2) 更改 源码 看 是 否 可 以 改变 功能 。 





13.4 实验 原理 


实验 主要 源码 : 
public class ExpressParsingThread extends Thread | 


Je 


* 此 类 是 一 个 线程 类 , SARS ditm 3-168 EU A CDS OC JR , 2 PE , FP 


[=] Hadoop 集群 提交 分 析 数 据 的 job 任务 





x Hadoop 集群 会 根据 快递 数据 文件 和 快递 人 员 的 信息 来 启动 Map/ Reduce 任务 
x 分 配 快 递 给 最 近 的 快递 人 员 ,最 后 把 产生 的 结果 信息 写 人 到 HDFS 上 


*/ 

private static final longserialVersionUID = 1L; 

private static final Configuration conf = HadoopConfiguration 
. getConfiguration ( ) ; 


private static booleanisLaunch = false ; 


private static final Map «String, GPRSBean > map = new HashMap < String, GPRSBean > ( ) ; 


private static final byte| |lock = new byte| 0 | ; 


private static final Map < String, ArrayList < String > > collect = new HashMap < String, 


ArrayList < String > > ( ); 
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private staticFileSystem fs = null; 
private static Path lockFile = new Path ( 


"/tomcat/ experiment/ expresscloud/results/. lock ") ; 


jf 5c 
* map 任务 ,负责 从 HDFS 上 读 取 快递 的 数据 文件 , 读 取 到 一 行 数据 ,然后 届 历 所 有 
的 快递 人 员 信 息 
* 把 此 快递 分 配给 离 这 个 快递 最 近 的 一 个 快递 人 员 
public static classExpressMapper extends 
Mapper < LongWritable , Text , Null Writable , NulIWritable > | 
publie static enum Counters | 


ROWS 


// JAH map 任务 之 前 的 数据 准备 工作 
protected void setup( Context context ) | 
try | 
synchronized ( lock ) | 
fs = FileSystem. get( context. getConfiguration( ) ) ; 
if( map. size( ) = 20) | 
Path path = new Path( 
"/tomcat/ experiment/ expresscloud/ courier/ courier. txt ") ; 
FSDatalnputStream fsdis = fs. open( path) ; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
while( ( line = br. readLine( ) )! = null) | 
String| | array = line. split("\t") ; 
try | 
if( array. length = =2) | 
GPRSBean gprsb = new GPRSBean( ) ; 
gprsb. setLongitude ( Float 
. parseFloat( (array| 1 ]. split(",") [0] ))); 
gprsb. setLatitude( Float 
. parseFloat( (array| 1 |. split(",")[1]))); 
map. put( array | 0 | ,gprsb) ; 
| 


| catch ( Exception e) | 
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e. printStackTrace( ) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 


// OS Wr eh fei E, , 逐 行 谈 取 数据 文件 ,一行 分 析 一 次 
public void map( LongWritable key , Text value, Context context) 
throws IOException , InterruptedException | 
String| | array = value. toString( ). split("\t") ; 


if( array. length = 24) | 
try | 
String| |ll = array| 2 |. substring( 
array | 2 |. indexOf ("2825 HE .") +" 经 纬度 :". length ( ) ) 


. split(",") ; 
float longitude = Float. parseFloat( ll[ 0 | ) ; 
float latitude = Float. parseFloat(ll| 1 | ) ; 
String result = null ; 
double distance = -1 ; 
for( Map. Entry < String, GPRSBean > me ; map. entrySet( ) ) | 
if( distance = = -1 ) | 
distance = Math. sqrt( Math. pow( ( longitude-me 
. getValue( ). getLongitude( ) ) ,2) 
* Math. pow( latitude 
-me. getValue( ). getLatitude( ) ,2) ) ; 
result = me. getKey( ) ; 
| else if( Math. sqrt( Math. pow( ( longitude-me 
. getValue( ). getLongitude( ) ) ,2) 
+ Math. pow( latitude 
-me. getValue( ). getLatitude( ) ,2) ) < 
distance ) | 


result = me. getKey( ) ; 


ate 
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if( collect. containsKey ( result) ) | 
collect. get( result). add(array| 1 | +"\t"+ array[3]) ; 
| else | 
collect. put( result, new ArrayList < String > ( ) ) ; 
collect. get( result). add(array| 1 | +"\t"+ array[3]) ; 
| 
context. getCounter( Counters. ROWS). increment( 1 ) ; 
if( context. getCounter( Counters. ROWS). getValue( ) 96100 220) | 
/ / /tomcat/ experiment/ expresscloud/ results 
synchronized( lock ) | 
while( fs. exists( lockFile) ) | 
Thread. sleep( 1000) ; 
| 
FSDataOutputStream fsdos = fs. create( lockFile) ; 
fsdos. write("" . getBytes( ) ) ; 
fsdos. close( ) ; 
for( Map. Entry < String, ArrayList < String > > me: collect 
. entrySet( ) ) | 
Path user = new Path( 
"/tomcat/ experiment/ expresscloud/ results/" 
+ me. getKey( ) +'/" 
* System. currentTimeMillis( ) 
+". order"); 
fsdos = fs. create( user, true ) ; 
for( String ele: me. getValue( ) ) | 
fsdos. write( (ele + n"). getBytes( ) ) ; 


| 
fsdos. close( ) ; 


| 


collect. clear( ) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 
throw new IOException( e) ; 
| finally | 
if( fs. exists( lockFile) ) | 
fs. delete( lockFile, false ) ; 
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// 清 理工 作 , 主 要 是 把 此 map 任务 产生 的 结果 写 人 到 HDFS 上 ,在 写 入 的 过 程 
中 ,会 产生 同步 锁 
protected void cleanup( Context context ) | 
if( collect. size( ) » 0) | 
synchronized ( lock ) | 
try | 
while( fs. exists( lockFile) ) | 
Thread. sleep ( 1000) ; 
| 
FSDataOutputStream fsdos = fs. create( lockFile ) ; 
fsdos. write(" . getBytes( ) ) ; 
fsdos. close( ) ; 
for( Map. Entry < String, ArrayList < String > > me collect 
. entrySet( ) ) | 
Path user = new Path( 


"/tomcat/ experiment/ expresscloud/ results/" 
+ me. getKey( ) +'/" 
+ System. currentTimeMillis( ) 
+". order"); 
fsdos = fs. create( user, true ) ; 
for( String ele: me. getValue( ) ) | 
fsdos. write( ( ele +"\n"). getBytes( ) ) ; 


| 
fsdos. close( ) ; 


| 
collect. clear( ) ; 
| catch ( IOExceptione ) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
|! finally | 
try | 
if( fs. exists( lockFile) ) | 
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fs. delete( lockFile ,false ) ; 
| 
| catch ( IOException e) | 
// TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 线 程 的 局 动 方法 ,该 线程 启动 时 首先 调用 此 方法 来 启动 所 有 的 操作 
publie void run( ) | 
isLaunch = true; 
while( isLaunch ) | 
try | 
FileSystem fs = FileSystem. get( conf) ; 
Path courier = new Path( 
"/tomcat/ experiment/ expresscloud/ courier/ courier. txt") ; 
if( fs. exists ( courier) ) | 
Path data = new Path( 
"/tomcat/ experiment/ expresscloud/uploaddata ") ; 
FileStatus| | dataes = fs. listStatus( data) ; 
if( dataes. length » 0) | 
Path out = new Path( 
"/tomcat/ experiment/ expresscloud/ mapreduce ") ; 
if( fs. exists( out) ) | 
fs. delete ( out , true ) ; 
| 
// 初 始 化 job 的 相关 信息 
Job job = new Job( conf," Parsing Express Data ") ; 
job. setJarByClass ( ExpressParsingThread. class) ; 
FileInputFormat. setInputPaths( job , data) ; 
FileOutputFormat. setOutputPath ( job out ) ; 


job. setMapperClass ( ExpressMapper. class) ; 
// job. setReducerClass ( ExpressReducer. class ) ; 
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job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( NullOutputFormat. class ) ; 
job. setOutputKeyClass ( NullWritable. class ) ; 
job. setOutputValueClass ( NullWritable. class) ; 
job. setNumReduceTasks (0) ; 
// 提 交 job 到 Hadoop 集群 上 ,并 让 其 开始 执行 此 任务 
job. waitForCompletion( true ) ; 
for( FileStatus ele; dataes ) | 
fs. delete( ele. getPath( ) , true) ; 


| 


| catch( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


| 

try | 
Thread. sleep(60 * 1000L) ; 

| catch( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


public void termination( ) | 


isLaunch = false; 


13.5 VR 


第 四 个 实验 项 目 : 智能 EMS 速递 云 。 

1) 进入 之 后 是 操作 界面 ， 如 图 13-1 所 示 。 

2) 这 个 项 目 是 在 Hadoop 上 又 加 了 一 层 ， 点 击 “ 局 动 智 能 分 析 ” 后， 就 不 需要 再 管 了 ， 
集群 会 一 直 分 析 数 据 ， 这 个 期 间 可 以 随时 上 传 数据 进行 分 析 。 

3) 这 里 提供 了 实例 下 载 ， 如 图 13-2 所 示 。 

4) 这 里 面 有 很 多 参数 ， 比 如 快递 发 出 的 时 间 、 地 址 是 哪里 、 经 纬度 是 多 少 、 和 备注， 如 
图 13-3 所 示 。 
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.… “智能 EMS 速 递 云 系 统 
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点 击 下 载 示例 文件 : [ni] 





版 要 所 有 名 2013 北京 斑 步 至 伟 科 技 公 司 


图 13-1. 示例 文件 下 载 
© iT | Xx J| 


从 网 址 : http:;//master:8080/education/downloadexpress?-96EA96B8968B9 





图 13-2 下 载 界面 
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图 13-3 ”查看 示例 文件 内 容 
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5) 先 更 改 一 条 快递 进行 测试 . 


地 点 : 北京 市 东 郊 火车 站 经 纬度 : 1.98128, 1.90178 备注 : 如 果 是 周 六 日 ， 请 送 到 保 
安 处 ， 在 三 楼 305, 


6) BIC), WK 13-4 所 示 。 





… 智能 EMS 速 递 云 系统 
二 示例 文件 T 载 
tocum Lis 
>» 启动 智能 分 析 点 击 启动 快件 分 析 作 业 : 
加 ”停止 智能 分 村 
< 我 的 GPS 

A 我 的 快递 
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图 13-4 局 动 云 计 算 
7) 用 admin 用户 登 录 ， 改 一 下 自己 的 GPS 位 置信 息 ， 如 图 13-5 Pra. 


-智能 EMS 速 递 云 系统 
二 示例 交 件 下 载 
UL E 











”启动 智能 分 村 当前 经 度 : | 1.90000 


| XBlin: 116.33533) 
图 ”停止 智能 分 村 








当前 纬度 : | 1.90000 





| (5/20: 39.20567) 
«4 TüfiGPs 


更 新 
us EIN + 
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图 13-5 设置 自己 的 GPS 位 置信 息 
8) 更 新 之 后 ， 可 以 在 后 人 台 查 看 到 位 置信 息 的 更 改 ， 如 图 13-6 所 示 。 
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File: /tomcat/experiment/expresscloud/courier/courier.txt 








Goto : Ktomcat/experi ment/expre fao) 








Go back to dir listing 
Advanced view/download options 





xiaoshang 110.97986,50.34567 


admin 1.9,1.9 


13-6 后台 查看 GPS 位置 信息 
9) 然后 进行 快递 数据 上 传 ， 如 图 13-7 所 示 。 


PA 智能 EMS 速 递 云 系统 














数据 文件 名 : | 浏览 | 








图 13-7 快递 数据 上 传 


10) 由 于 数据 比较 多 ， 所 以 采用 文件 上 传 ， 如 图 13-8 所 示 。 


e. 智能 EMS 速 递 云 系统 
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数据 文件 各 : | C:\users\hadoop\Desktop\exp, 浏览 | 








图 13-8 选择 上 传 文件 
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11) 比如 目 己 是 一 个 快递 员 ， 如 图 13-9 所 示 。 
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| Cluster Summary (Heap Size is 54.5 MB/888.94 MB) 
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c | Queue Name | State Scheduling Information | 








default 

















running | N/A | 


Filter (Jobid, Priority, User, Name) 


Example: 'user:smith 3200' will filter by 'smith' only in the user field and '3200' in all fields 














Running Jobs p 


要 EN Hap 5 Hap Haps Reduce % Reduce Reduces Job Scheduling Diagnostic 
Complete Total Completed Complete 


: Parsing 0. 00% 0. 00% 
job 201303231822 0004 | NORMAL mE me scc CL ae NA NA 


Completed Jobs 
T EN Hap % Hap Haps Reduce % Reduce Reduces Job Scheduling Diagnostic 
eae 100. 00% 100. 00% 
job 201303291822 0001 | NORMAL hadoop E p 2 B ea ii il NA NA 
g 2 A NA . 


| | ice 201303291822 0002 | NORMAL | hadoop [Parsing Meixin — [100.004 _ 100.008 — 
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图 13-9 浏览 执行 任务 
12) 运行 完毕 后 ， 查 看 分 给 目 己 的 快递 信息 ， 搜 索 一 下 之 前 更 改 位 置 的 快递 信息 ， 如 
图 13-10 所 示 。 








A TORETE 
+, SRE LE 

M 系统 就 近 为 你 分 析出 185 个 订单 
人 ATEI 北京 市 东部 火车 站 备注 。 如 果 是 周 六 日 ， 请 送 到 保安 处 ， 在 三 楼 305。 
W 停止 智能 分 析 订单 2: 北京 市 保健 院 路 口 备注 : SARS, SRI 
2 HEPS ATES) 北京 市 西 东 村 备注 : 。 此 快递 地 点 没有 手机 信号 。 

T 订单 4 北京 市 香河 一 中 备注 : HEE EAT, BASE. 
rie RIS] 北京 市 香河 一 中 备注 ”快递 需要 收 件 人 在 你 面前 打开 ,确认 无 误 再 走 





iTS: 北京 市 虎 坊 桥 西 站 备注 : | 要 是 对 方 不 是 本 人 签收 , 请 让 对 方便 出 身份 证 , 留 下 证 件 号 码 。 
i786: 北京 市 焦 王 庄 北口 备注 : — 此 快递 不 着 急 ， 如 果 今 天 任务 没有 完成 ， 可 以 拖延 至 后 天 前 送 到 。 
条 单 7: 北京 市 犁 家 胡同 备注 : — 本 快递 是 需要 拆 包 验 货 。 

i728: 北京 市 大 安 山 村 西口 备注 : BALCH, WORE. ERAS. 

i789: AREER 备注 — 送 货 号 码 看 不 清楚 ， 核 对 住址 和 联系 人 。 

条 单 10:| 北京 市 何 家 坟 备注 : 。 如 果 办 公 室 没 人 ,请 条 P9990 

采 单 11:| 北京 市 建材 城 东 里 备注 : 要 是 对 方 不 是 本 人 签收 ， 请 让 对 方 章 出 身份 证 ， 留 下 证 件 号 码 。 
条 单 12: 北京 市 梁 各 庄 备注 : CBAR. ， 请 轻 齐 轻 放 。 


























订单 13: 北京 市 小 务 备注 : 。 送 完 这 个 快递 ， 给 站 点 打 个 电话 ， 这 个 快递 需要 马上 报告 情况 。 
订单 14: 北京 市 北纬 路 备注 : 。 送 完 这 个 快递 ， 给 站 点 打 个 电话 ， 这 个 快递 需要 马上 报告 情况 。 




















17315: 北京 市 万 源 路 备注 : 。 这 个 快递 尽量 避 开 晚 六 点 下 班 高 峰 期， 因为 送 货 节点 只 有 一 条 路 ， 不 好 走 。 HRRHOERO 2013 北京 斑 步 至 读 科 技 公司 





图 13-10 查看 分 配给 自己 的 快递 信息 
13) 经 查看 发 现 这 个 快递 已 经 发 给 目 己 了 ， 当 快递 员 很 多 时 ， 这 样 做 就 会 发 挥 出 很 大 
的 作用 。 
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